谷歌在9个演示中发布Gemini Omni和Gemini 3.5

在2026年谷歌I/O大会上，这家科技巨头通过一系列九个演示视频发布了其最新AI模型——Gemini Omni和Gemini 3.5，给现场观众和在线观众留下了深刻印象。这些演示展示了模型先进的多模态能力，使其能够无缝理解和生成文本、图像、音频和视频内容。 Gemini Omni被设计为一个通用模型，可以处理任何输入类型并生成连贯、上下文感知的输出。在一个演示中，该模型分析了一个实时视频流，回答了关于场景的问题，同时生成了书面摘要和音频旁白。另一方面，Gemini 3.5专注于改进推理和效率，在复杂问题解决和创造性任务的基准测试中超越了其前代产品。这些演示突出了实际应用：从具有视觉上下文的实时口语翻译，到从原始视频素材生成详细报告。谷歌还展示了这些模型如何协助创意工作流程，例如基于自然语言指令编辑图像，或根据文本提示创作音乐。这些发布使谷歌处于多模态AI技术的前沿，直接与OpenAI和Anthropic的产品竞争。该公司强调，这两个模型均可通过谷歌云的Vertex AI平台获得，允许开发者将其集成到自己的应用程序中。行业分析师指出，多模态性能的飞跃可能会彻底改变教育、娱乐和可访问性等领域。例如，学生可以上传讲座视频并收到带有关键视觉内容的摘要转录，而内容创作者可以从一个想法生成完整的多媒体演示。谷歌还预告了未来的更新，包括增强的实时协作功能以及与产品生态系统的更紧密集成。随着AI变得更加多功能，Gemini Omni和Gemini 3.5有望重新定义人机交互的边界。

谷歌在9个演示中发布Gemini Omni和Gemini 3.5

相关资讯