Gemini Omni 与 Gemini 3.5 的 9 个实际应用演示

谷歌发布了九段新的演示视频，展示了其最新 AI 模型 Gemini Omni 和 Gemini 3.5 的卓越能力，这两款模型已在 Google I/O 2026 上正式发布。这些演示直观地展示了这些模型如何突破多模态人工智能的边界。这些视频重点介绍了 Gemini Omni 和 Gemini 3.5 区别于前代产品的几项关键进步。其中最令人印象深刻的演示之一是实时视频理解。在演示中，模型观看一个人组装家具的实时视频流，并提供分步口头指导，在过程中纠正错误并回答相关问题。另一个演示侧重于跨不同数据类型的复杂推理。用户向模型展示了一张手绘的业务流程图，上传了相关的电子表格，并要求进行书面分析。Gemini Omni 无缝地将来自草图的视觉信息与来自电子表格的数字数据整合起来，生成了一份连贯且有洞察力的报告。这些演示还展示了增强的实时交互能力。与需要在输入和输出之间暂停的先前模型不同，Gemini 3.5 展示了近乎即时的对话流程，并且能够打断、提出澄清性问题以及根据用户反馈调整语气。这使得交互感觉更加自然和人性化。其他演示包括根据白板图表生成高级代码、具有上下文感知能力的实时语言翻译，以及分析长视频内容（例如完整讲座）并生成带有时间戳的详细摘要的能力。这些视频共同描绘了一个 AI 生态系统，它正变得更加集成、直观，并且能够处理现实世界中混乱的多模态问题。谷歌已在其官方 YouTube 频道上提供了完整的播放列表，供开发者和研究人员参考。

Gemini Omni 与 Gemini 3.5 的 9 个实际应用演示

相关资讯