Gemini Omni: Was das neue KI-Modell wirklich kann

21. Mai 20264 Min. Lesezeit

Google hat ein neues KI-Modell vorgestellt, das die Grenzen multimodaler Inhaltserstellung neu definiert: Gemini Omni. Das Modell kombiniert Geminis Fähigkeiten zum Schlussfolgern mit der Fähigkeit, neue Inhalte zu kreieren, und macht dabei Videos zum zentralen Ausgabeformat. Das erste Modell der Omni-Familie trägt den Namen Gemini Omni Flash und ist ab sofort für Nutzerinnen und Nutzer weltweit verfügbar.

Koray Kavukcuoglu, CTO von Google DeepMind und Chief AI Architect bei Google, beschreibt den Ansatz hinter Omni prägnant: Das Modell sei in der Lage, „aus allen möglichen Eingaben vielfältige Ausgaben zu erzeugen, angefangen bei Videos." Dabei lassen sich bei der Eingabe Bilder, Audio, Video und Text kombinieren, um hochwertige Videos zu erstellen, die auf Geminis Allgemeinwissen fundiert sind. Videos können zudem per Sprachbefehl bearbeitet werden.

Verfügbarkeit und Zugang

Gemini Omni Flash steht ab sofort für alle Abonnentinnen und Abonnenten von Google AI Plus, Pro und Ultra weltweit über die Gemini App sowie über Google Flow zur Verfügung. Darüber hinaus wird das Modell kostenlos für Nutzerinnen und Nutzer von YouTube Shorts und YouTube Create eingeführt. Google kündigt an, schon bald auch weitere Ausgabeformate wie Bild und Audio zu unterstützen, derzeit liegt der Schwerpunkt auf der Videogenerierung und -bearbeitung.

Dies ist nicht der erste Schritt Googles in Richtung multimodaler KI-Generierung. Wie im offiziellen Google-Blog erläutert wird, hat das Unternehmen letztes Jahr mit dem Projekt „Nano Banana" Geminis Intelligenz für die Generierung und Bearbeitung von Bildern verfügbar gemacht. Seitdem konnten Millionen von Menschen damit alte Fotos restaurieren, anhand von Skizzen Bilder entwerfen und Ideen auf neue Weise visualisieren. Omni markiert nun den nächsten Entwicklungsschritt.

Videoproduktion per natürlicher Sprache

Ein zentrales Merkmal von Gemini Omni ist die Möglichkeit, Videos mithilfe natürlicher Sprache zu bearbeiten. Jede Anweisung baut dabei auf der vorherigen auf, das Modell erhält den Kontext der gesamten Bearbeitungshistorie. Charaktere bleiben laut Google konsistent, physische Eigenschaften sind realitätsgetreu dargestellt, und Szenen basieren auf dem, was in der vorherigen Sequenz geschah.

Die Bandbreite der demonstrierten Anwendungsfälle ist beachtlich: Nutzerinnen und Nutzer können einzelne Details eines Videos verändern oder die gesamte Szene umgestalten. Ein demonstrierter Prompt lautet beispielsweise: „Make the sculpture out of bubbles", eine bestehende Aufnahme wird damit visuell transformiert, ohne die Grundstruktur der Szene aufzugeben. Ebenso ist es möglich, Handlungen zu verändern, neue Charaktere und Gegenstände hinzuzufügen oder einen Moment in etwas Unerwartetes zu verwandeln.

Besonders hervorgehoben wird die Möglichkeit, Videos in mehreren aufeinanderfolgenden Durchgängen zu verfeinern. Dabei können Umgebung, Blickwinkel, Stil und spezifische Details iterativ angepasst werden, ohne den Faden der ursprünglichen Szene zu verlieren. Ein demonstrierter Mehrschritt-Workflow zeigt etwa, wie aus einem Violinisten-Video zunächst der Hintergrund ausgetauscht und anschließend der Kamerawinkel auf eine Schulterperspektive geändert wird, alles durch aufeinanderfolgende Sprachbefehle.

Geminis Allgemeinwissen als kreative Grundlage

Gemini Omni beschränkt sich laut Google nicht darauf, lediglich realistische Szenen zu erzeugen. Das Modell kombiniert ein intuitives Verständnis von Physik mit Geminis Wissen über Geschichte, Wissenschaft und kulturellen Kontext. Google beschreibt dies als „Brücke zwischen Fotorealismus und bedeutungsvollem Storytelling".

Im Bereich Physiksimulation bietet Omni ein verbessertes Verständnis von Kräften wie Schwerkraft, kinetischer Energie und Fluiddynamik. Ein Beispiel-Prompt zeigt eine Murmel, die auf einer Kettenreaktionsbahn rollt, als kontinuierliche, flüssige Aufnahme. Darüber hinaus kann das Modell auf das Wissen von Gemini zurückgreifen, um Sprache, Bilder und Bedeutung zu verknüpfen, laut Google auf eine Weise, „die weit über das bloße Erkennen von Mustern hinausgeht".

Besonders eindrücklich ist das Beispiel eines Alphabet-Videos: Ein Prompt beschreibt ein Video, das für jeden der 26 Buchstaben einen ungewöhnlichen Gegenstand zeigt, etwa ein Capybara für C, eine Discokugel für D oder eine Lavalampe für L. Jeder Buchstabe soll mit einem passenden Lower-Third-Einblender versehen sein, der aussieht wie mit einem schwarzen Marker auf einen Zettel geschrieben. Das resultierende Video soll im Schnellfeuerrhythmus ablaufen, mit ruhiger Musik unterlegt und mit einem Abschlusszettel mit „THE END" enden, alles aus einem einzigen Textprompt.

Flexible Eingabeformate

Gemini Omni ist von Grund auf darauf ausgelegt, verschiedene Eingabeformate zu kombinieren und daraus ein kohärentes Ergebnis zu erzeugen. Unterstützt werden Bilder, Texte, Videos und Audio als Referenzen. Google weist darauf hin, dass zu Beginn zunächst nur Sprachreferenzen für Audio unterstützt werden, weitere Arten von Audio-Eingaben jedoch bald folgen sollen.

Die demonstrierten Möglichkeiten reichen von der Übertragung eines visuellen Stils aus einem Referenzvideo auf neues Material bis hin zur Animierung von Handzeichnungen zu realistischem Filmmaterial. Ein Beispiel zeigt, wie eine einfache Zeichnung eines Fisches als Bewegungsleitfaden dient und in realistisches Videomaterial überführt wird, ohne dass die Zeichnung selbst im finalen Video erscheint. Ein weiteres Beispiel demonstriert, wie Posen und Bewegungen aus einem Eingabevideo auf einen Charakter aus einem Referenzbild übertragen und mit einem visuellen Stil aus einem dritten Bild kombiniert werden.

Hintergrund: Gemini als multimodales System von Beginn an

Google betont in seiner Ankündigung, dass Gemini von Anfang an als multimodales Modell konzipiert wurde, nicht als nachträglich erweitertes Sprachmodell. Omni stellt dabei die konsequente Weiterentwicklung dieses Ansatzes dar: Während frühere Versionen primär auf das Verstehen und Verarbeiten verschiedener Modalitäten ausgerichtet waren, steht bei Omni die Generierung komplexer, multimodaler Ausgaben im Vordergrund. Die Omni-Familie ist dabei als fortlaufende Modellreihe angelegt, Gemini Omni Flash ist explizit als „erstes Modell der Omni-Familie" beschrieben, weitere Modelle und Ausgabeformate sind bereits angekündigt.

Quellen:
Das ist Gemini Omni, Google Keyword Blog Deutschland
Gemini Omni, Google DeepMind

Gemini OmniGoogle KIGemini Omni Flashmultimodales KI-ModellGoogle DeepMindKI Videogenerierungkünstliche IntelligenzGoogle AI

Teilen:LinkedIn X / Twitter