Künstliche Intelligenz verändert die technische Zugänglichkeit

Im Zeitalter des Internets kommen sich die Leute immer näher – du kannst deinen Freund aus der Türkei per Snapchat chatten, deine Eltern in ihrem schicken Urlaub per Video anrufen, deinem alten Brieffreund jetzt dein neuer Tastaturfreund eine kurze SMS schicken.in Japan.

Aber da die Welt immer enger zusammenrückt, wird unsere Aufmerksamkeitsspanne immer kommodifizierter. Wir verbringen Stunden damit, durch Instagram zu scrollen, während wir weniger Zeit damit verbringen, direkt miteinander zu interagieren.

Ironischerweise ändert künstliche Intelligenz das jetzt.

Im März 2021, Google hat seine Live-Untertitel enthüllt Funktion in Chrome-Browsern. Live Caption verwendet maschinelles Lernen, um sofort Untertitel für jeden Video- oder Audioclip zu erstellen und so gehörlosen und schwerhörigen Personen einen besseren Zugang zu Internetinhalten zu ermöglichen.

Früher – und auch heute noch – waren Untertitel entweder für Videoformate vorprogrammiert, oder ein Stenotyp tippte einen fast sofortigen Untertitel, der im Fernsehen ausgestrahlt würde. An Orten, an denen Untertitel nicht die „Norm“ sind,“ wie bei Apps wie Instagram oder TikTok sind Untertitel fast unmöglich zu finden. Live Caption ändert dies: Mit ein paar Fingertipps auf den Bildschirm kann jeder Benutzer sofort und präzise Untertitel haben, die die Reichweite von Audio und Video erweitern.

Googles Live Caption ist eine Art von NLP oder natürlicher Sprachverarbeitung. NLP ist eine Form der künstlichen Intelligenz, die Algorithmen verwendet, um eine Art „Interaktion“ zwischen Menschen und Maschinen zu ermöglichen. NLPs helfen uns, menschliche Sprachen in Maschinensprachen zu entschlüsseln, und oftund umgekehrt.

Um die Geschichte des NLP zu verstehen, müssen wir auf einen der genialsten Wissenschaftler der Neuzeit zurückgreifen: Alan Turing. 1950, Turing veröffentlichte „Computing Machinery and Intelligence“ in dem die Vorstellung von empfindungsfähigen, denkenden Computern diskutiert wurde. Er behauptete, dass es keine überzeugenden Argumente gegen die Idee gebe, dass Maschinen wie Menschen denken könnten, und schlug das „Imitationsspiel“ vor, das heute als Turing-Test bekannt ist. Turing schlug einen Weg vor, ummessen, ob künstliche Intelligenz selbstständig denken kann oder nicht: Wenn sie einen Menschen mit einer gewissen Wahrscheinlichkeit richtig täuschen könnte, kann sie als intelligent angesehen werden.

Von 1964 bis 1966 schrieb der deutsche Wissenschaftler Joseph Weizenbaum einen NLP-Algorithmus, der als ELIZA bekannt ist. ELIZA verwendete Mustervergleichstechniken, um eine Konversation zu erstellen. Zum Beispiel im DOCTOR-Skript, wenn dem Computer von einem Patienten gesagt wurde „mein Kopf tut weh“.“, würde es mit einem ähnlichen Satz wie „Warum tut dein Kopf weh?“ antworten. ELIZA gilt heute als einer der frühesten Chatbots und als einer der ersten, der einen Menschen in einer begrenzten Art von Turing-Test täuscht.

Die 1980er waren ein wichtiger Wendepunkt in der Produktion von NLPs. In der Vergangenheit bildeten NLP-Systeme wie ELIZA Konversationen, indem sie sich auf ein komplexes Regelwerk verließen – die KI konnte nicht für sich selbst „denken“; eher war sie ein bisschen wie ein Chatbot und verwendete „Dosen“.Antworten auf passt in den Kontext. Wenn der Mensch etwas sagte, für das er keine Antwort hatte, gab er eine „ungerichtete“ Antwort mit etwas wie „Erzähl mir mehr über [ein Thema von früher in der Unterhaltung].

In den späten 1980er Jahren konzentrierten sich NLPs stattdessen auf statistische Modelle, die ihnen halfen, auf Wahrscheinlichkeit basierende Gespräche zu führen.

Modernes Spracherkennungs-NLP umfasst einige gängige Prinzipien wie Spracherkennung, Audioerkennung, Spracherkennung und Diarisierung, die zwischen Sprechern unterscheiden können. Das Live-Untertitelsystem von Google verwendet drei Deep-Learning-Modelle um die Bildunterschriften zu bilden: ein rekurrentes neuronales Netzwerk RNN für die Spracherkennung, ein textbasiertes RNN zur Erkennung von Interpunktion und ein konvolutionelles neuronales Netzwerk CNN zur Klassifizierung von Schallereignissen. Diese drei Modelle senden Signale, die sich zu denUntertitel-Track, komplett mit Applaus-Untertiteln und Musikuntertiteln.

Wenn Sprache in einem Audio- oder Videoformat erkannt wird, wird das automatische Spracherkennungs-RNN ASR aktiviert, sodass das Gerät mit der Übertragung der Wörter in Text beginnen kann. Wenn diese Sprache stoppt, beispielsweise wenn stattdessen Musik abgespielt wird, stoppt der ASR, um den Akku des Telefons zu schonen und das Label [music] in der Bildunterschrift auszulösen.

Wenn der Sprachtext zu einer Bildunterschrift formuliert wird, wird die Interpunktion auf dem vorherigen vollständigen Satz gebildet. Die Interpunktion wird kontinuierlich angepasst, bis die ASR-Ergebnisse die Bedeutung des gesamten Satzes nicht beeinträchtigen.

Derzeit kann Live Caption nur Untertitel für englischen Text erstellen, aber es wird ständig verbessert und wird eines Tages auf andere Sprachen ausgeweitet. Frühe Versionen der spanischen, deutschen und portugiesischen Untertitel sind derzeit in Google Meet verfügbar.

Accessibility-zentrierte NLPs beschränken sich nicht nur auf das Erstellen von Untertiteln. Ein weiteres Google-Projekt, Project Euphonia, verwendet NLP, um Personen mit atypischer Sprache oder Sprachbehinderungen zu helfen, von Spracherkennungssoftware besser verstanden zu werden. Project Euphonia sammelt 300-1500 Audiophrasenvon Freiwilligen mit Sprachbehinderung. Diese Hörproben können dann an Spracherkennungsmodelle „gefüttert“ werden um für eine Vielzahl von Sprachbehinderungen zu trainieren. Darüber hinaus erstellt das Programm vereinfachte Sprachsysteme, die Gesichtsverfolgung oder einfache Geräusche verwenden können, um verschiedene Aktionen zu signalisieren, wie das Einschalten eines Lichts oder das Abspielen eines bestimmten Liedes.

Eines der neuesten ASR-NLPs von Google versucht, die Art und Weise zu ändern, wie wir mit anderen um uns herum interagieren, und erweitert den Umfang, wo – und mit wem – wir kommunizieren können. Der Google-Interpretermodus verwendet ASR, um zu erkennen, was Sie sagen, und spuckt.eine exakte Übersetzung in eine andere Sprache erstellen, wodurch effektiv eine Konversation zwischen ausländischen Personen entsteht und Sprachbarrieren niedergerissen werden.Eine ähnliche Sofortübersetzungstechnologie wurde auch von SayHi verwendet, mit der Benutzer steuern können, wie schnell oder langsam die Übersetzung gesprochen wird.

Es gibt noch ein paar Probleme im ASR-System. Oft als KI-Akzentlücke bezeichnet, haben Maschinen manchmal Schwierigkeiten, Personen mit starken Akzenten oder Dialekten zu verstehen. Derzeit wird dies von Fall zu Fall angegangen: Wissenschaftler neigen dazuein Modell mit einem einzigen Akzent zu verwenden, bei dem verschiedene Algorithmen für verschiedene Dialekte oder Akzente entwickelt wurden. Einige Unternehmen haben beispielsweise mit der Verwendung separater ASR-Systeme experimentiert, um mexikanische Dialekte des Spanischen und spanische Dialekte des Spanischen zu erkennen.

Letztendlich spiegeln viele dieser ASR-Systeme ein gewisses Maß an impliziter Voreingenommenheit wider. In den Vereinigten Staaten ist African-American Vernacular English, auch als AAVE bezeichnet, ein äußerst verbreiteter Dialekt des „traditionellen“ Englisch, der am häufigsten von Afrikanern gesprochen wird.Amerikaner. Mehrere Studien haben jedoch signifikante rassische Unterschiede in der durchschnittlichen Wortfehlerrate in verschiedenen ASR-Systemen gefunden, mit ein Studienergebnis die durchschnittliche Wortfehlerrate für schwarze Sprecher ist fast doppelt so hoch wie die von weißen Sprechern in ASR-Programmen von Amazon, Apple, Google, IBM und Microsoft.

In Zukunft kann ein vielfältigeres Training für KI, das regionale Akzente, Dialekte und Slang umfasst, dazu beitragen, Unterschiede in der Genauigkeit von ASR zwischen Rassen und Ethnien zu verringern.

Technologie hat ein unglaubliches Potenzial, Menschen zusammenzubringen, aber wenn Menschen ausgelassen werden, sei es aufgrund von Behinderungen, Rasse, ethnischer Zugehörigkeit oder aus anderen Gründen, kann dies eine spaltende und isolierende Kraft sein. Dank der Verarbeitung natürlicher Sprache sind wirbeginnen, diese Lücken zwischen den Menschen zu füllen, um eine zugänglichere Zukunft aufzubauen.

Wird KI Dolmetscher und Gebärdensprache überflüssig machen?

Bleiben Sie über die neuesten technischen Nachrichten auf dem Laufenden

Gesponserte Geschichten

empfohlen

Neue KI kann Ihre Lieblingsschauspieler dazu bringen, Fremdsprachen fließend zu sprechen

Popstar-Algorithmen: Warum KI bald bessere Musik machen wird als Menschen

Mit Tieren sprechen: KI verwenden, um die Sprache der Wale zu entschlüsseln

Was bedeuten all diese Schilder am Flughafen?