Model Update2026-05-30Google AI Blog

Google、Gemini OmniとGemini 3.5を9つのデモで発表

Google I/O 2026で、同社は最新のAIモデル「Gemini Omni」と「Gemini 3.5」を、9つのデモ動画シリーズを通じて発表し、参加者やオンライン視聴者を感嘆させた。デモでは、テキスト、画像、音声、動画にわたるコンテンツをシームレスに理解し生成できる、モデルの高度なマルチモーダル機能が披露された。 Gemini Omniは、あらゆる入力タイプを処理し、首尾一貫した文脈認識型の出力を生成できるユニバーサルモデルとして設計されている。あるデモでは、モデルがライブ動画フィードを分析し、シーンに関する質問に答えながら、同時に文章による要約と音声ナレーションを生成した。一方、Gemini 3.5は推論能力と効率性の向上に焦点を当てており、複雑な問題解決や創造的タスクのベンチマークにおいて前世代モデルを上回る性能を発揮する。 デモでは、視覚的な文脈を伴う音声言語のリアルタイム翻訳から、生の動画映像からの詳細なレポート生成まで、実用的なアプリケーションが強調された。Googleはまた、自然言語の指示に基づく画像編集や、テキストプロンプトからの音楽作曲など、クリエイティブなワークフローをモデルがどのように支援できるかも示した。 これらの発表により、GoogleはマルチモーダルAI技術の最前線に位置し、OpenAIやAnthropicの提供する製品と直接競合することになる。同社は、両モデルがGoogle CloudのVertex AIプラットフォームを通じて利用可能であり、開発者が自身のアプリケーションに統合できることを強調した。 業界アナリストは、マルチモーダル性能の飛躍が教育、エンターテイメント、アクセシビリティなどの分野に革命をもたらす可能性があると指摘する。例えば、学生が講義動画をアップロードすれば、主要なビジュアルを含む要約された書き起こしを受け取ることができ、コンテンツ制作者は単一のアイデアから完全なマルチメディアプレゼンテーションを生成できるようになる。 Googleはまた、将来のアップデートとして、強化されたリアルタイムコラボレーション機能や、製品エコシステムとのより緊密な統合を予告した。AIがより多用途になるにつれて、Gemini OmniとGemini 3.5は、私たちがテクノロジーと対話する方法を再定義する態勢を整えている。

関連ニュース