Die Ingenieurstudentin Priyanjali Gupta hat keine großen Geschichten über die Inspiration hinter ihrem KI-Modell, das übersetzt Amerikanische Gebärdensprache ASL sofort ins Englische.
Stattdessen war der treibende Faktor ihre Mutter, die sie bat, „etwas zu tun, jetzt wo sie Ingenieurwissenschaften studiert“, eine Aussage, die von den meisten indischen Müttern wiederholt wird. Vellore Institute of Technology , Tamil Nadu.
Das war im Februar 2021.
"Sie hat mich verspottet. Aber es hat mich dazu gebracht, darüber nachzudenken, was ich mit meinem Wissen und meinen Fähigkeiten tun könnte. Eines schönen Tages, inmitten von Gesprächen mit Alexa, kam mir die Idee einer integrativen Technologie in den Sinn. Das löste eine Reihe von Plänen aus", sagte GuptaDelhi, erzähltInteressante Technik | wissenschaft-x.com.
Schneller Vorlauf bis Februar 2022, ein Jahr nach der Spitzfindigkeit ihrer Mutter, Gupta hat ein KI-Modell erstellt, das die Tensorflow-Objekterkennungs-API nutzt. Es nutzt das Transferlernen durch ein vortrainiertes Modell namens ssd_mobilenet. Ihr Post auf LinkedIn ging viral, mit mehr als 58.000 Reaktionen und 1.000 Menschen schätzen ihre Idee, die die Lücke schließt und Wellen schlägt inklusive Technologie.
"Der Datensatz wird manuell erstellt, indem die Bildsammlungs-Python-Datei ausgeführt wird, die Bilder von Ihrer Webcam für oder alle der unten genannten Zeichen in der amerikanischen Gebärdensprache sammelt: Hallo, ich liebe dich, danke, bitte, ja und nein,"sagt ihr Github-Beitrag.
Gupta schreibt ihre Modellinspiration dem Data Scientist zu Nicholas Renottes Video auf Echtzeit-Gebärdenspracherkennung.
"Der Datensatz wird manuell mit einer Computer-Webcam erstellt und mit Anmerkungen versehen. Das Modell wird vorerst mit einzelnen Frames trainiert. Um Videos zu erkennen, muss das Modell mit mehreren Frames trainiert werden, für die ich wahrscheinlich LSTM verwenden werde. Ich recherchiere derzeit darüber", sagt Gupta. Langzeitgedächtnisnetzwerke, oder LSTMs, gelten als effiziente Lösung zur Lösung von Sequenzvorhersageproblemen in der Datenwissenschaft.
Gupta räumt ein, dass die Erstellung eines Deep-Learning-Modells von Null für die Zeichenerkennung nicht die einfachste ist. „Ein tiefes neuronales Netzwerk nur für die Zeichenerkennung zu erstellen, ist ziemlich komplex“, sagte sie IE. Sie antwortet auf einen der Kommentare in der gleichen Weise: „Ich bin nur ein Amateurstudent, aber ich lerne. Und ich glaube, früher oder später wird unsere Open-Source-Community, die viel erfahrener ist als ich, es werdenfinde eine Lösung."
Ein kleiner Schritt in Richtung Inklusion
Obwohl ASL behauptet wird, das zu seindritthäufigste Sprache In den Vereinigten Staaten, die hinter Englisch und Spanisch rangieren, müssen Anwendungen und Technologien zur Übersetzung in eine andere Sprache noch aufholen. Die Zoom-Boom, das durch die Pandemie beschleunigt wurde, hat die Gebärdensprache ins Rampenlicht gerückt. Ein typisches Beispiel wäre KI-Forscher von Google präsentieren ein Modell zur Erkennung von Gebärdensprache in Echtzeit kann Personen, die unterschreiben, mit einer Genauigkeit von bis zu 91 Prozent identifizieren.
„Meiner Meinung nach versuchen Forscher und Entwickler ihr Bestes, um eine umsetzbare Lösung zu finden. Ich denke jedoch, dass der erste Schritt darin bestehen würde, Gebärdensprachen und andere Kommunikationsarten mit Menschen mit Behinderungen zu normalisieren und an der Überbrückung zu arbeitendie Kommunikationslücke", sagt Gupta.