Google 在九場示範中推出 Gemini Omni 與 Gemini 3.5

在 Google I/O 2026 大會上，這家科技巨頭透過一系列九段示範影片，發表了其最新的 AI 模型——Gemini Omni 與 Gemini 3.5，令現場與線上觀眾印象深刻。這些示範展示了模型先進的多模態能力，使其能夠無縫理解與生成文字、圖像、音訊和影片內容。 Gemini Omni 被設計為一種通用模型，能夠處理任何輸入類型，並產出連貫且具情境感知的輸出。在一段示範中，該模型分析了即時影片串流，回答了關於場景的問題，同時生成了文字摘要與音訊旁白。另一方面，Gemini 3.5 專注於改善推理能力與效率，在複雜問題解決與創意任務的基準測試中，表現優於其前代產品。這些示範突顯了實際應用：從具備視覺情境的即時口語翻譯，到從原始影片素材生成詳細報告。Google 也展示了這些模型如何協助創意工作流程，例如根據自然語言指令編輯圖像，或根據文字提示創作音樂。這些發布使 Google 位居多模態 AI 技術的前沿，直接與 OpenAI 和 Anthropic 的產品競爭。該公司強調，這兩個模型均可透過 Google Cloud 的 Vertex AI 平台取得，讓開發者能將其整合到自己的應用程式中。業界分析師指出，多模態效能的躍進可能徹底改變教育、娛樂和無障礙等領域。例如，學生可以上傳一堂授課影片，並收到附有關鍵視覺元素的摘要文字稿；而內容創作者則可以從一個點子生成完整的多媒體簡報。 Google 也預告了未來的更新，包括增強的即時協作功能，以及與其產品生態系統的更緊密整合。隨著 AI 變得更加多功能，Gemini Omni 與 Gemini

Google 在九場示範中推出 Gemini Omni 與 Gemini 3.5

相关资讯