Multimodal2026-05-31
Google AI Blog
Gemini OmniとGemini 3.5の動作デモ9本
Googleは、Google I/O 2026で正式に発表された最新のAIモデル、Gemini OmniとGemini 3.5の驚くべき機能を示す9本の新しいデモンストレーション動画を公開しました。これらのデモは、これらのモデルがマルチモーダル人工知能の限界をどのように押し広げているかを実践的に示しています。
動画では、Gemini OmniとGemini 3.5を従来モデルから際立たせるいくつかの重要な進歩が強調されています。最も印象的なデモの一つは、リアルタイムの動画理解に関するものです。デモでは、モデルが家具を組み立てている人物のライブ動画を視聴し、ステップごとに口頭で指示を出し、間違いを修正し、その過程で生じる質問にその場で回答します。
別のデモでは、異なるデータタイプにわたる複雑な推論に焦点を当てています。ユーザーがビジネスプロセスの手書きスケッチをモデルに見せ、関連するスプレッドシートをアップロードし、書面による分析を依頼します。Gemini Omniは、スケッチからの視覚情報とスプレッドシートからの数値データをシームレスに統合し、一貫性のある洞察に富んだレポートを作成します。
デモでは、強化されたリアルタイム対話機能も紹介されています。入力と出力の間に間を必要とした以前のモデルとは異なり、Gemini 3.5はほぼ瞬時の会話の流れを示し、割り込み、質問の明確化、ユーザーのフィードバックに基づいた口調の調整が可能です。これにより、やり取りがより自然で人間らしく感じられます。
その他のデモには、ホワイトボード図からの高度なコード生成、文脈を考慮したリアルタイム翻訳、完全な講義などの長時間動画コンテンツを分析し、タイムスタンプ付きの詳細な要約を生成する能力などが含まれます。これらの動画は総合的に、AIエコシステムがより統合され、直感的で、現実世界の問題の複雑でマルチモーダルな性質に対処できるようになりつつある様子を描き出しています。Googleは、開発者や愛好家向けに公式YouTubeチャンネルで全プレイリストを公開しています。