Werbung

Googles neue Sprach-KI ist hyperrealistisch

Google hat gerade neue Informationen zu den neuesten Fortschritten in der Sprach-KI veröffentlicht. Der neue Tacotron klingt wie ein Mensch.

Künstliche Intelligenz gehört nicht mehr zu den fantasievollen Köpfen der Science-Fiction. Wenn Sie sich über einige der neuesten KI-Entwicklungen im Jahr 2017 Sorgen gemacht haben, sieht 2018 nicht besser aus. Eine der gruseligeren Entwicklungen muss der neueste Fortschritt sein Googles sprachgenerierende KI .

Wenn Sie nun eines der Google-Produkte oder sogar nur den Google-Übersetzungsdienst verwendet haben, sind Sie mit der KI-Stimme von Google vertraut. Die Roboterstimme ist sowohl als Männer- als auch als Frauenstimme verfügbar und ebenso wie die von Apple ein fester Bestandteil unserer KulturSiri oder Microsoft Cortana.

Im Laufe der Jahre hat sich die Google-Stimme weniger roboterhaft und eher wie ein Mensch angehört. Zu diesem Zeitpunkt ist die neue Google-Sprach-KI von Tacotron 2 fast nicht mehr von Menschen zu unterscheiden.

Innovation

Können wir künstliche Intelligenz wirklich kontrollieren?

Googles sprachgenerierte KI

In einem kürzlich veröffentlichten Forschungsbericht der Google-Mitarbeiter stellt das Team Details zum beeindruckenden Sprachsystem Tacotron 2 vor. In diesem Artikel hebt Google die Fähigkeit des Systems hervor, fast identisch mit seinen menschlichen Schöpfern zu sprechen. Das Team beschreibt das zweiteGeneration Sprachsystem im Bericht Angabe , " Die Tacotron 2, eine neuronale Netzwerkarchitektur für die Sprachsynthese direkt aus Text . Das System besteht aus einem wiederkehrenden Netzwerk zur Vorhersage von Merkmalen von Sequenz zu Sequenz, das Zeicheneinbettungen mel zuordnet. -skalige Spektrogramme, gefolgt von einem modifizierten WaveNet-Modell, das als Vocoder fungiert, um Zeitbereichswellenformen aus diesen Spektrogrammen zu synthetisieren . "

Wie im Bericht angegeben, besteht die Technologie aus zwei tiefen neuronalen Netzen. Das erste Netz übersetzt den Text in ein Spektrogramm und sendet sie dann in das Deep Mind- erstelltes System, WaveNet. Was erhalten Sie, wenn Sie diese Systeme implementieren? Eine Stimme, die wie ihre menschlichen Gegenstücke klingt. Hören Sie sich die unten dargestellte Sprachaufnahme an. Eine der Aufnahmen ist der Tacotron 2, während die andere eine bezahlte Schauspielerin ist.Kannst du den Unterschied erkennen?

Werbung

In diesen Aufnahmen sagt die Stimme "Das Mädchen hat ein Video über Star Wars Lippenstift gemacht."

Oder wie wäre es mit diesem ? Sie promovierte in Soziologie an der Columbia University. ”

Wenn Sie die Kraft des Tacotron 2 hören, hören Sie zu, wie er diese Zungenbrecher versucht.

„Peter Piper hat einen Schuss eingelegte Paprikaschoten gepflückt. Wie viele eingelegte Paprikaschoten hat Peter Piper gepflückt?“

"Sie verkauft Muscheln an der Küste. Die Muscheln, die sie verkauft, sind Muscheln, da bin ich mir sicher."

Die KI analysiert auch hervorragend den Kontext und versteht, wo Stress liegen soll. Hören Sie sich die perfekte Beugung an, die sie in der Aussage verwendet. "Er dachte, es sei Zeit, die Gegenwart zu präsentieren."

Es kann auch den Unterschied zwischen Homonymen erkennen, z. B. den Unterschied zwischen der Vergangenheitsform erkennen können. lesen und der Infinitiv zum Lesen. Sogar einige menschliche englische Muttersprachler können beim Vorlesen mit denen zu kämpfen haben!

Werbung

Obwohl das System gelegentlich Probleme mit der Aussprache der mehrsilbigen Wörter hat, liefert Tacotron 2 eine beeindruckende Stimmakustik. Sobald das System für die Produktion fertiggestellt ist, wird der Tacotron 2 mit Sicherheit eine leistungsstarke Stimme im gesamten Google-Ökosystem sein.

Via : Google

Folgen Sie uns auf

Bleiben Sie über die neuesten technischen Neuigkeiten auf dem Laufenden

Geben Sie einfach Ihre E-Mail-Adresse ein und wir kümmern uns um den Rest :

Mit Ihrer Anmeldung stimmen Sie unserer zu Nutzungsbedingungen und Datenschutzerklärung . Sie können sich jederzeit abmelden.