Model Update2026-04-01
MIT Technology Review
MITレビュー:AIベンチマークは壊れており、代替が必要
狭いタスクでAIを人間と対決させて評価するという標準的な手法は、根本的に欠陥があり、代替が必要である。現在のベンチマークは、「AIはこの人間のタスクをこなせるか?」と問うことが多く、実世界での知性と影響力について単純化され誤解を招く絵を描き出すという、説得力のある批判がなされている。
これらの従来型の指標は、AIシステムが実際にどのように人間のワークフローに統合されるか、より広範な経済的・社会的効果、あるいは有意義な協働の能力を捉えられていない。特定のテストで高得点を取ることは、専門的な環境において有用で信頼でき、倫理的なパートナーであることには直結しない。
求められているのは、タスク達成を超えた新しい評価フレームワークである。将来のベンチマークは、AIが人間チームを拡張する能力、動的環境に適応する能力、その推論を説明する能力、そして複雑なプロセスに積極的に貢献する能力を測定すべきである。目標は、孤立した状態での知性ではなく、文脈の中で知性を評価すること——AIシステムが、具体的で前向きな結果を推進するために、より大きな人間-機械システム内の構成要素としてどのように機能するかを評価することにある。
