GPT-5.5、新ベンチマーク「エージェント最終試験」でClaude Fable 5を破る

意外な展開として、OpenAIのGPT-5.5が、新たに公開された「Agents' Last Exam (ALE)」ベンチマークにおいて、AnthropicのClaude Fable 5を上回る性能を示した。研究者連合によって設計されたALEベンチマークは、AIの能力を評価する上で最も厳格なテストの一つとされており、複雑な推論、多段階の問題解決、実世界のタスク実行についてモデルを評価する。GPT-5.5は大幅に高いスコアを達成し、AIコミュニティの多くの人々を驚かせた。というのも、Claude Fable 5はこれまでのいくつかの評価において、主要なモデルとして広く認識されていたからである。この結果は、AIモデルの改良が急速に進んでいることを浮き彫りにしており、新しいバージョンが登場するたびに、可能なことの限界が押し広げられている。研究者らは、GPT-5.5が特に長期的な計画と適応的な意思決定を必要とするタスクで優れており、これらの分野では以前Claude Fable 5が強みを示していたと指摘した。このベンチマーク結果は、AI開発者間の競争環境の進化についての議論を巻き起こしており、OpenAIとAnthropicは現在、優位性を巡る激しい競争に突入している。ALEベンチマークは、将来のモデル比較における標準的な基準点となることが予想され、両社はこれに応じて開発サイクルを加速させる可能性が高い。

GPT-5.5、新ベンチマーク「エージェント最終試験」でClaude Fable 5を破る

関連ニュース