Mehrere Unternehmen, wie SignAll und Kintrans haben Gebärdensprachübersetzungssysteme erstellt. Während hochentwickelte Systeme noch nicht zum Mainstream gehören.
Die ultimative Mission dieser Unternehmen ist es, Millionen von Menschen, die Gebärdensprache verwenden, die Möglichkeit zu geben, problemlos mit anderen zu kommunizieren.
Jetzt könnte ein neuer Hand-Tracking-Algorithmus aus den KI-Labors von Google ein großer Schritt sein, um diese ehrgeizige Art von Software zu dem zu machen, was sie ursprünglich versprochen hatte.
Das neue System von Google AI Labs verwendet nur ein Smartphone und seine Kamera und erstellt eine sehr detaillierte Karte der Hand einer Person, die dann für die Kommunikation verfolgt werden kann.
„Während aktuelle Ansätze auf dem neuesten Stand der Technik hauptsächlich auf leistungsstarken Desktop-Umgebungen beruhen, um Rückschlüsse zu ziehen, erzielt unsere Methode eine Echtzeitleistung auf einem Mobiltelefon und lässt sich sogar auf mehrere Hände skalieren“, so die Google-Forscher Valentin Bazarevsky und Fan Zhangin einem Blogbeitrag .
„Eine robuste Echtzeit-Handwahrnehmung ist eine ausgesprochen herausfordernde Computer-Vision-Aufgabe, da sich die Hände häufig gegenseitig oder gegenseitig verschließen z. B. Finger- / Handflächenverschlüsse und Handshakes und keine kontrastreichen Muster aufweisen.“
As TechCrunch Berichte, Unternehmen wie SignAll haben sich an Tiefenerkennungs-Kamera-Rigs gewandt, um Handbewegungen zu verfolgen. Trotzdem ist es eine schwierige Aufgabe, Handbewegungen mit Fingern zu verfolgen, die sich gegenseitig verdecken und sich schnell bewegen.
Schnellere Berechnungen
Eine der Methoden, mit denen die Forscher ihren Algorithmus dazu gebracht haben, Handzeichen schneller zu berechnen, bestand darin, den Prozess so weit wie möglich zu vereinfachen - weniger Daten führen zu weniger Verarbeitungszeit.
Erstens trainiert das System auf der Handfläche einer Person, anstatt die Abmessungen der gesamten Hand zu erfassen. Dann betrachtet ein separater Algorithmus auch die Finger und die Handfläche und weist sie zu. 21 Koordinaten an Knöcheln, Fingerspitzen usw.
Werbung
Damit die KI diese Koordinaten lernen konnte, mussten die Forscher diese manuell hinzufügen. 21 Punkte zu einigen 30.000 Bilder von Händen in verschiedenen Posen und Beleuchtungssituationen.
Anregung neuer Forschungswege
Die Entwickler haben Open-Source-Code in der Hoffnung, dass andere innovative Wege finden, es zu nutzen und zu verbessern. Das System nutzt das vorhandene von Google MediaPipe Augmented Reality Framework.
„Wir hoffen, dass die Bereitstellung dieser Handwahrnehmungsfunktion für die breitere Forschungs- und Entwicklungsgemeinschaft zu kreativen Anwendungsfällen führt, die neue Anwendungen und neue Forschungswege anregen“, heißt es in ihrer Blog-Erklärung.
Bis zur wirklich effektiven Erkennung der Gebärdensprache ist es wahrscheinlich noch ein langer Weg - die Kommunikation über die Gebärdensprache beruht auf Handgesten, Gesichtsausdrücken und anderen Hinweisen. Dies ist jedoch ein aufregender Schritt in die richtige Richtung.