Model Update2026-06-05
Google AI Blog
Google I/O 2026:Gemini Omni 與 3.5 的 9 場示範
在 Google I/O 2026 上,這家科技巨頭發布了九段示範影片,聚焦於其最新的人工智慧模型:Gemini Omni 和 Gemini 3.5。這些示範不僅僅是漸進式改進的展示;它們代表了多模態推理領域的一次飛躍,該領域中 AI 能夠以統一的方式同時處理和理解文字、圖像、影片和音訊。
其中一個突出的功能是即時影片理解。在一段示範中,AI 觀看了一個人組裝家具的即時畫面,並提供了逐步的口頭指導,在錯誤發生時即時糾正。另一段影片顯示 Gemini Omni 分析研究論文中的複雜科學圖表,無需額外上下文就能回答關於數據趨勢的後續問題。這些模型在即時互動方面也表現出色,進行流暢的對話,感覺不那麼機械化且更直觀,即使在被打斷或被要求突然切換話題時也是如此。
對於開發者而言,這些示範突顯了新的整合層級。特別是 Gemini 3.5,展現了將多個任務串聯起來的能力——例如總結一封長郵件、從中提取日曆事件,然後起草回覆——全部在單一對話線程中完成。這減少了為每個步驟使用單獨工具的麻煩。
Google 的策略很明確:讓 AI 助理不僅更聰明,而且更能處理混亂的真實世界場景。I/O 2026 上的示範表明,一個有用的助理與一個真正自主的代理之間的差距正在縮小。對消費者而言,這可能意味著更智慧的搜尋結果、更好的語音助理,以及能夠預測需求而不僅僅是回應指令的應用程式。對企業而言,這為自動化以前需要人工監督的複雜工作流程打開了大門。
雖然這些示範令人印象深刻,但關於部署成本、實際應用中的延遲,以及這些模型將如何處理隱私問題,仍有待解答。