Werbung

Diese AI-Software kann beängstigend realistische gefälschte Videos aus Audioclips generieren.

Forscher der University of Washington haben a neue Deep-Learning-Technologie Dadurch konnten sie sehr realistische Videos erstellen, indem sie Audioclips mit authentischen Videoreferenzen überlappten. Sie konnten Audioclips des ehemaligen US-Präsidenten Barrack Obama mit vier verschiedenen Videoszenarien synchronisieren, in denen er auftrat.

Lippensynchronisierung von "wilden" Videoinhalten zur Erstellung synthetischer, aber realistischer Videos

Frühere Versuche, Audioproben mit Videoclips zu synchronisieren, werden leicht als Fälschung angesehen und sind meistens gruselig oder unangenehm anzusehen. Der von der University of Washington entwickelte neue Algorithmus war jedoch in der Lage, Audio- und Videoclips reibungslos zu synchronisieren.die ein häufiges Problem bei der Erstellung realistischer Videos überwunden haben, die als unheimliches Tal . Supasorn Suwajanakorn, der Hauptautor des veröffentlichten Papiers, notiert die Komplexität des Prozesses der Lippensynchronisation eines Videomaterials.

"Menschen reagieren besonders empfindlich auf Bereiche Ihres Mundes, die nicht realistisch aussehen. Wenn Sie die Zähne nicht richtig rendern oder das Kinn sich zur falschen Zeit bewegt, können die Menschen es sofort erkennen und es wird falsch aussehen.Man muss also die Mundregion perfekt rendern, um über das unheimliche Tal hinauszukommen ".

[Bildquelle : Universität von Washington ]

Suwajanakorn und sein Forscherteam verwendeten eine zweistufige Technik, um ihre hochrealistischen Videos zu erstellen. Zuerst mussten sie ein neuronales Netzwerk trainieren, um Videos einer bestimmten Person zu verarbeiten und verschiedene Audiotöne in grundlegende Mundformen umzuwandeln. Anschließend verwendeten sie dieseeine Technologie aus einer früheren Forschung der UW Grafik- und Bildlabor um die bestimmten Mundformen über vorhandenen Referenzvideos zu überlappen und zu kombinieren. Einer der anderen Tricks, die sie aufgegriffen haben, bestand darin, eine kleine Zeitverschiebung zuzulassen, damit das neuronale Netzwerk vorhersagen kann, was das Subjekt sagen wird.Suwajanakorn hat es geschafft, Algorithmen zu entwickeln, die in der Lage sind, aus Videos zu lernen, die im gesamten Internet oder, wie die Forscher es ausdrückten, "in the wild" gefunden wurden.

Werbung

"Es gibt bereits Millionen von Stunden Video aus Interviews, Video-Chats, Filmen, Fernsehprogrammen und anderen Quellen. Und diese Deep-Learning-Algorithmen sind sehr datenhungrig, daher ist es eine gute Übereinstimmung, dies auf diese Weise zu tun." sagte der Hauptautor.

Möglicher Einsatz der Deep-Learning-Technologie

Einer der Forscher im Team hat über eine Science-Fiction-Anwendung für die Technologie nachgedacht. Ira Kemelmacher-Shlizerman, Assistenzprofessor an der School of Computer Science & Engineering der Universität sagte dass der neue Algorithmus sowohl für alltägliche Ereignisse als auch in futuristischen Umgebungen verwendet werden kann.

"Die realistische Audio-Video-Konvertierung bietet praktische Anwendungen wie die Verbesserung von Videokonferenzen für Besprechungen sowie futuristische Anwendungen wie die Möglichkeit, ein Gespräch mit einer historischen Figur in der virtuellen Realität zu führen, indem visuelle Elemente nur aus Audio erstellt werdeneine Art Durchbruch, der dazu beitragen wird, die nächsten Schritte zu ermöglichen ".

Werbung

Die Deep-Learning-Technologie kann auch verwendet werden, um häufig auftretende Probleme bei der virtuellen Kommunikation zu beheben, bei denen das Streamen von Live-Videos häufig verzögert und frustrierend ist. Die Audioverbindung wird normalerweise in Echtzeit ohne Verzögerung gestreamt.

"Wenn Sie Skype oder Google Hangouts ansehen, ist die Verbindung oft stotternd und niedrig aufgelöst und wirklich unangenehm, aber oft ist der Ton ziemlich gut", sagte Steve Seitz, Co-Autor des Papiers. "Wenn Sie also das Audio verwenden könnten, um Videos mit viel höherer Qualität zu produzieren, wäre das großartig", fügte er hinzu.

Die Technologie des Teams könnte auch entwickelt und erweitert werden, um sie mit Algorithmen auszustatten, mit denen festgestellt werden kann, ob ein Video authentisch oder hergestellt ist. Außerdem möchten sie ihre Technologie weiterentwickeln, damit sie die Stimme und Sprache einer Person mit weniger Aufwand studieren und verarbeiten könnenAuf diese Weise wird die Prozesszeit auf nur eine Stunde anstatt auf etwa 14 Stunden verkürzt.

Werbung

A Papier über die Forschung des Teams wird auf der vorgestellt SIGGRAPH 2017 Konferenz in Los Angeles am 2. August 2017.

Ausgewählte Bildquelle : Supasorn Suwajanakorn / YouTube

Via Universität von Washington

SIEHE AUCH : Diese neue Technologie ermöglicht das Bearbeiten von Audio genau wie Text

Folgen Sie uns auf

Bleiben Sie über die neuesten technischen Neuigkeiten auf dem Laufenden

Geben Sie einfach Ihre E-Mail-Adresse ein und wir kümmern uns um den Rest :

Mit Ihrer Anmeldung stimmen Sie unserer zu Nutzungsbedingungen und Datenschutzerklärung . Sie können sich jederzeit abmelden.