Multimodal2026-05-31
Google AI Blog
Gemini Omni 與 Gemini 3.5 實際應用 9 段示範影片
Google 發布了九段全新的示範影片,展示其最新 AI 模型 Gemini Omni 與 Gemini 3.5 的卓越能力,這些模型已在 Google I/O 2026 上正式宣布。這些示範讓觀眾得以親眼見證這些模型如何突破多模態人工智慧的界限。
這些影片突顯了多項關鍵進展,使 Gemini Omni 與 Gemini 3.5 有別於前代產品。其中最令人印象深刻的示範之一涉及即時影片理解。在示範中,模型觀看一個人正在組裝家具的即時影片,並提供逐步的口頭指導,在過程中糾正錯誤並回答相關問題。
另一段示範聚焦於跨不同數據類型的複雜推理。使用者向模型展示一張手繪的商業流程草圖,上傳一份相關的試算表,並要求進行書面分析。Gemini Omni 無縫地將草圖中的視覺資訊與試算表中的數值數據整合起來,產出一份連貫且具洞察力的報告。
這些示範也展示了增強的即時互動能力。與需要輸入與輸出之間有停頓的前代模型不同,Gemini 3.5 展現了近乎即時的對話流暢度,具備打斷、提出澄清問題以及根據使用者反饋調整語氣的能力。這使得互動感覺更加自然且更像人類。
其他示範包括從白板圖表生成進階程式碼、具備情境感知能力的即時語言翻譯,以及分析長篇影片內容(例如一整堂講座)並生成附有時間戳記的詳細摘要。這些影片共同描繪出一個 AI 生態系統的樣貌,它正變得更加整合、直觀,並且能夠處理現實世界中混亂的多模態問題。Google 已在其官方 YouTube 頻道上提供完整的播放清單,供開發者與愛好者觀看。