Multimodal2026-05-31
Google AI Blog
9 Demos von Gemini Omni und Gemini 3.5 in Aktion
Google hat neun neue Demonstrationsvideos veröffentlicht, die die bemerkenswerten Fähigkeiten seiner neuesten KI-Modelle, Gemini Omni und Gemini 3.5, zeigen, die offiziell auf der Google I/O 2026 angekündigt wurden. Die Demos bieten einen praktischen Einblick, wie diese Modelle die Grenzen der multimodalen künstlichen Intelligenz erweitern.
Die Videos heben mehrere wichtige Fortschritte hervor, die Gemini Omni und Gemini 3.5 von ihren Vorgängern unterscheiden. Eine der beeindruckendsten Demonstrationen betrifft das Echtzeit-Videoverständnis. In der Demo sieht das Modell einen Live-Videofeed einer Person, die ein Möbelstück zusammenbaut, und gibt dabei Schritt-für-Schritt-Anleitungen, korrigiert Fehler und beantwortet Fragen zum Prozess, während diese auftreten.
Eine weitere Demo konzentriert sich auf komplexes Denken über verschiedene Datentypen hinweg. Ein Benutzer zeigt dem Modell eine handgezeichnete Skizze eines Geschäftsprozesses, lädt eine zugehörige Tabelle hoch und bittet um eine schriftliche Analyse. Gemini Omni integriert nahtlos die visuellen Informationen aus der Skizze mit den numerischen Daten aus der Tabelle, um einen kohärenten, aufschlussreichen Bericht zu erstellen.
Die Demos zeigen auch verbesserte Echtzeit-Interaktionsfähigkeiten. Im Gegensatz zu früheren Modellen, die eine Pause zwischen Eingabe und Ausgabe erforderten, demonstriert Gemini 3.5 einen nahezu augenblicklichen Gesprächsfluss, einschließlich der Fähigkeit zu unterbrechen, klärende Fragen zu stellen und seinen Tonfall basierend auf Benutzerfeedback anzupassen. Dies lässt Interaktionen natürlicher und menschlicher wirken.
Weitere Demonstrationen umfassen die erweiterte Codegenerierung aus Whiteboard-Diagrammen, Echtzeit-Sprachübersetzung mit Kontextbewusstsein und die Fähigkeit, Langform-Videoinhalte, wie eine vollständige Vorlesung, zu analysieren und eine detaillierte Zusammenfassung mit Zeitstempeln zu erstellen. Diese Videos zeichnen gemeinsam das Bild eines KI-Ökosystems, das integrierter, intuitiver und besser in der Lage wird, mit der unstrukturierten, multimodalen Natur realer Probleme umzugehen. Google hat die vollständige Playlist auf seinem offiziellen YouTube-Kanal für Entwickler und die Öffentlichkeit zugänglich gemacht.