Model Update2026-06-11VentureBeat

GPT-5.5 在新基準測試「智能體終極考試」中擊敗 Claude Fable 5

出乎意料地,OpenAI 的 GPT-5.5 在新發布的「智能體終極考試」(ALE)基準測試中,表現優於 Anthropic 的 Claude Fable 5。ALE 基準測試由一群研究人員合作設計,被認為是對 AI 能力最嚴格的測試之一,評估模型在複雜推理、多步驟問題解決以及真實世界任務執行方面的表現。GPT-5.5 取得了顯著更高的分數,讓 AI 社群中的許多人措手不及,因為 Claude Fable 5 在先前多次評估中被廣泛視為領先模型。這些結果凸顯了 AI 模型改進的快速步伐,每一次迭代都在突破可能性的邊界。研究人員指出,GPT-5.5 特別擅長需要長期規劃與適應性決策的任務,而這些領域正是 Claude Fable 5 先前展現優勢的地方。該基準測試的結果引發了關於 AI 開發者之間競爭格局演變的討論,OpenAI 與 Anthropic 目前正陷入一場激烈的霸主爭奪戰。ALE 基準測試預計將成為未來模型比較的標準參考點,兩家公司很可能會因此加速其開發週期。

相關資訊