Bereits im Januar 2021, OpenAI eingeführtDALL-E, ein neuronales Netzwerk, von dem das Unternehmen sagte, dass es „jeden Text nehmen und daraus ein Bild machen kann“, so Ilya Sutskever, Chefwissenschaftler und Mitbegründer von OpenAI. Dazu gehörten Konzepte, auf die es während des Trainings möglicherweise nie gestoßen wäre.
Jetzt ist die Firma mit einer noch beeindruckenderen Version des vorherigen Programms namens DALL-E zurück. Laut Website von OpenAI, „DALL-E 2 ist ein neues KI-System, das realistische Bilder und Grafiken aus einer Beschreibung in natürlicher Sprache erstellen kann.“
Astronauten auf Pferden und mehr
Die Website gibt viele Beispiele für die Arbeit des KI-Systems und sie sind geradezu beeindruckend. Zum Beispiel erzeugten die Wörter „ein Astronaut“, „auf einem Pferd reiten“ und „in einem fotorealistischen Stil“ das Bild, das wir oben zeigen.
Was hier erstaunlich ist, ist, dass das KI-System versteht, wo der Astronaut auf das Pferd gesetzt werden muss und was ein fotorealistisches Bild ist. OpenAI erklärt weiter, dass „DALL·E 2 realistische Bearbeitungen an bestehenden Bildern von einer Beschriftung in natürlicher Sprache vornehmen kann. Es kannfügen Sie Elemente hinzu und entfernen Sie sie, während Sie Schatten, Reflexionen und Texturen berücksichtigen."
Beispiele zeigen, wie das Programm tatsächlich Funktionen hinzufügen oder sie vollständig in einem Bild verschwinden lassen kann, während es immer noch in gutem Zustand bleibt. Schließlich enthüllt OpenAI, dass „DALL·E 2 ein Bild aufnehmen und verschiedene Variationen davon erstellen kann, inspiriert von derOriginal." Dies wird durch ein Gemälde veranschaulicht, das mit jeder Version leicht anders gemacht wird, während es den Gesamtmerkmalen des Gemäldes treu bleibt.
Wie erreicht DALL-E das alles?
OpenAI erklärt, dass „DALL·E 2 die Beziehung zwischen Bildern und dem Text, der zu ihrer Beschreibung verwendet wird, gelernt hat. Es verwendet einen Prozess namens „Diffusion“, der mit einem Muster aus zufälligen Punkten beginnt und dieses Muster allmählich in Richtung eines Bildes ändertes erkennt spezifische Aspekte dieses Bildes." Noch besser ist, dass die Inhaltsrichtlinie von OpenAI Benutzern nicht erlaubt, gewalttätige, nicht jugendfreie oder politische Inhalte zu erstellen, um das Programm für alle sicher zu machen.