Model Update2026-05-30Google AI Blog

Google 在九場示範中推出 Gemini Omni 與 Gemini 3.5

在 Google I/O 2026 大會上,這家科技巨頭透過一系列九段示範影片,發表了其最新的 AI 模型——Gemini Omni 與 Gemini 3.5,令現場與線上觀眾印象深刻。這些示範展示了模型先進的多模態能力,使其能夠無縫理解與生成文字、圖像、音訊和影片內容。 Gemini Omni 被設計為一種通用模型,能夠處理任何輸入類型,並產出連貫且具情境感知的輸出。在一段示範中,該模型分析了即時影片串流,回答了關於場景的問題,同時生成了文字摘要與音訊旁白。另一方面,Gemini 3.5 專注於改善推理能力與效率,在複雜問題解決與創意任務的基準測試中,表現優於其前代產品。 這些示範突顯了實際應用:從具備視覺情境的即時口語翻譯,到從原始影片素材生成詳細報告。Google 也展示了這些模型如何協助創意工作流程,例如根據自然語言指令編輯圖像,或根據文字提示創作音樂。 這些發布使 Google 位居多模態 AI 技術的前沿,直接與 OpenAI 和 Anthropic 的產品競爭。該公司強調,這兩個模型均可透過 Google Cloud 的 Vertex AI 平台取得,讓開發者能將其整合到自己的應用程式中。 業界分析師指出,多模態效能的躍進可能徹底改變教育、娛樂和無障礙等領域。例如,學生可以上傳一堂授課影片,並收到附有關鍵視覺元素的摘要文字稿;而內容創作者則可以從一個點子生成完整的多媒體簡報。 Google 也預告了未來的更新,包括增強的即時協作功能,以及與其產品生態系統的更緊密整合。隨著 AI 變得更加多功能,Gemini Omni 與 Gemini

相关资讯