Google enthüllt Gemini Omni und Gemini 3.5 in 9 Demos

Auf der Google I/O 2026 enthüllte der Technologieriese seine neuesten KI-Modelle – Gemini Omni und Gemini 3.5 – in einer Reihe von neun Demonstrationsvideos, die die Teilnehmer und Online-Zuschauer beeindruckten. Die Demos zeigten die erweiterten multimodalen Fähigkeiten der Modelle, die es ihnen ermöglichen, Inhalte über Text, Bilder, Audio und Video hinweg nahtlos zu verstehen und zu generieren. Gemini Omni ist als universelles Modell konzipiert, das jede Art von Eingabe verarbeiten und kohärente, kontextbewusste Ausgaben erzeugen kann. In einer Demo analysierte das Modell einen Live-Videostream, beantwortete Fragen zur Szene und erstellte gleichzeitig eine schriftliche Zusammenfassung sowie eine Audioerzählung. Gemini 3.5 hingegen konzentriert sich auf verbesserte Argumentationsfähigkeiten und Effizienz und übertrifft seinen Vorgänger in Benchmarks für komplexe Problemlösungen und kreative Aufgaben. Die Demonstrationen hoben praktische Anwendungen hervor: von der Echtzeitübersetzung gesprochener Sprache mit visuellem Kontext bis hin zur Erstellung detaillierter Berichte aus rohem Videomaterial. Google zeigte auch, wie die Modelle bei kreativen Arbeitsabläufen helfen können, etwa bei der Bearbeitung von Bildern auf der Grundlage natürlicher Sprachbefehle oder beim Komponieren von Musik aus einer Textaufforderung. Diese Ankündigungen positionieren Google an der Spitze der multimodalen KI-Technologie und stehen in direktem Wettbewerb mit den Angeboten von OpenAI und Anthropic. Das Unternehmen betonte, dass beide Modelle über die Vertex AI-Plattform von Google Cloud verfügbar sind, sodass Entwickler sie in ihre eigenen Anwendungen integrieren können. Branchenanalysten stellten fest, dass der Sprung in der multimodalen Leistung Bereiche wie Bildung, Unterhaltung und Barrierefreiheit revolutionieren könnte. Beispielsweise könnte ein Student ein Vorlesungsvideo hochladen und eine zusammengefasste Abschrift mit wichtigen Bildern erhalten, während ein Content-Ersteller aus einer einzigen Idee eine vollständige Multimedia-Präsentation erstellen könnte. Google deutete auch zukünftige Updates an, darunter verbesserte Echtzeit-Kollaborationsfunktionen und eine engere Integration in sein Produktökosystem. Da KI immer vielseitiger wird, sind Gemini Omni und Gemini

Google enthüllt Gemini Omni und Gemini 3.5 in 9 Demos

Noticias relacionadas