Model Update2026-06-11VentureBeat

GPT-5.5在新基准测试“智能体最终考试”中击败Claude Fable 5

出人意料的是,OpenAI的GPT-5.5在新发布的“智能体最终考试”(ALE)基准测试中击败了Anthropic的Claude Fable 5。ALE基准测试由一组研究人员设计,被认为是AI能力最严格的测试之一,评估模型在复杂推理、多步骤问题解决和现实世界任务执行方面的表现。GPT-5.5获得了显著更高的分数,这让AI社区的许多人感到意外,因为Claude Fable 5在之前的多次评估中被广泛认为是领先模型。这一结果凸显了AI模型改进的快速步伐,每一次新的迭代都在突破可能性的边界。研究人员指出,GPT-5.5在需要长期规划和适应性决策的任务中表现尤为出色,而这些正是Claude Fable 5此前展现优势的领域。该基准测试结果引发了关于AI开发者之间竞争格局演变的讨论,OpenAI和Anthropic现在正陷入一场争夺霸主地位的激烈竞赛。ALE基准测试预计将成为未来模型比较的标准参考点,两家公司都可能因此加速其开发周期。

相关资讯