Multimodal2026-05-31
Google AI Blog
Gemini Omni 与 Gemini 3.5 的 9 个实际应用演示
谷歌发布了九段新的演示视频,展示了其最新 AI 模型 Gemini Omni 和 Gemini 3.5 的卓越能力,这两款模型已在 Google I/O 2026 上正式发布。这些演示直观地展示了这些模型如何突破多模态人工智能的边界。
这些视频重点介绍了 Gemini Omni 和 Gemini 3.5 区别于前代产品的几项关键进步。其中最令人印象深刻的演示之一是实时视频理解。在演示中,模型观看一个人组装家具的实时视频流,并提供分步口头指导,在过程中纠正错误并回答相关问题。
另一个演示侧重于跨不同数据类型的复杂推理。用户向模型展示了一张手绘的业务流程图,上传了相关的电子表格,并要求进行书面分析。Gemini Omni 无缝地将来自草图的视觉信息与来自电子表格的数字数据整合起来,生成了一份连贯且有洞察力的报告。
这些演示还展示了增强的实时交互能力。与需要在输入和输出之间暂停的先前模型不同,Gemini 3.5 展示了近乎即时的对话流程,并且能够打断、提出澄清性问题以及根据用户反馈调整语气。这使得交互感觉更加自然和人性化。
其他演示包括根据白板图表生成高级代码、具有上下文感知能力的实时语言翻译,以及分析长视频内容(例如完整讲座)并生成带有时间戳的详细摘要的能力。这些视频共同描绘了一个 AI 生态系统,它正变得更加集成、直观,并且能够处理现实世界中混乱的多模态问题。谷歌已在其官方 YouTube 频道上提供了完整的播放列表,供开发者和研究人员参考。