Model Update2026-05-30Google AI Blog

谷歌在9个演示中发布Gemini Omni和Gemini 3.5

在2026年谷歌I/O大会上,这家科技巨头通过一系列九个演示视频发布了其最新AI模型——Gemini Omni和Gemini 3.5,给现场观众和在线观众留下了深刻印象。这些演示展示了模型先进的多模态能力,使其能够无缝理解和生成文本、图像、音频和视频内容。 Gemini Omni被设计为一个通用模型,可以处理任何输入类型并生成连贯、上下文感知的输出。在一个演示中,该模型分析了一个实时视频流,回答了关于场景的问题,同时生成了书面摘要和音频旁白。另一方面,Gemini 3.5专注于改进推理和效率,在复杂问题解决和创造性任务的基准测试中超越了其前代产品。 这些演示突出了实际应用:从具有视觉上下文的实时口语翻译,到从原始视频素材生成详细报告。谷歌还展示了这些模型如何协助创意工作流程,例如基于自然语言指令编辑图像,或根据文本提示创作音乐。 这些发布使谷歌处于多模态AI技术的前沿,直接与OpenAI和Anthropic的产品竞争。该公司强调,这两个模型均可通过谷歌云的Vertex AI平台获得,允许开发者将其集成到自己的应用程序中。 行业分析师指出,多模态性能的飞跃可能会彻底改变教育、娱乐和可访问性等领域。例如,学生可以上传讲座视频并收到带有关键视觉内容的摘要转录,而内容创作者可以从一个想法生成完整的多媒体演示。 谷歌还预告了未来的更新,包括增强的实时协作功能以及与产品生态系统的更紧密集成。随着AI变得更加多功能,Gemini Omni和Gemini 3.5有望重新定义人机交互的边界。

相关资讯