GPT-5.5 在新基準測試「智能體終極考試」中擊敗 Claude Fable 5

出乎意料地，OpenAI 的 GPT-5.5 在新發布的「智能體終極考試」（ALE）基準測試中，表現優於 Anthropic 的 Claude Fable 5。ALE 基準測試由一群研究人員合作設計，被認為是對 AI 能力最嚴格的測試之一，評估模型在複雜推理、多步驟問題解決以及真實世界任務執行方面的表現。GPT-5.5 取得了顯著更高的分數，讓 AI 社群中的許多人措手不及，因為 Claude Fable 5 在先前多次評估中被廣泛視為領先模型。這些結果凸顯了 AI 模型改進的快速步伐，每一次迭代都在突破可能性的邊界。研究人員指出，GPT-5.5 特別擅長需要長期規劃與適應性決策的任務，而這些領域正是 Claude Fable 5 先前展現優勢的地方。該基準測試的結果引發了關於 AI 開發者之間競爭格局演變的討論，OpenAI 與 Anthropic 目前正陷入一場激烈的霸主爭奪戰。ALE 基準測試預計將成為未來模型比較的標準參考點，兩家公司很可能會因此加速其開發週期。

GPT-5.5 在新基準測試「智能體終極考試」中擊敗 Claude Fable 5

相關資訊