GPT-5.5 Supera Claude Fable 5 no Novo Benchmark Agents' Last...

Em uma reviravolta surpreendente, o GPT-5.5 da OpenAI superou o Claude Fable 5 da Anthropic no recém-lançado benchmark Agents' Last Exam (ALE). O benchmark ALE, projetado por uma coalizão de pesquisadores, é considerado um dos testes mais rigorosos de capacidades de IA, avaliando modelos em raciocínio complexo, resolução de problemas em várias etapas e execução de tarefas do mundo real. O GPT-5.5 alcançou uma pontuação significativamente maior, pegando muitos na comunidade de IA desprevenidos, já que o Claude Fable 5 era amplamente considerado o modelo líder em várias avaliações anteriores. Os resultados destacam o ritmo acelerado de melhoria nos modelos de IA, com cada nova iteração ultrapassando os limites do que é possível. Os pesquisadores notaram que o GPT-5.5 se destacou particularmente em tarefas que exigem planejamento de longo prazo e tomada de decisão adaptativa, áreas onde o Claude Fable 5 havia mostrado força anteriormente. Os resultados do benchmark geraram discussões sobre o cenário competitivo em evolução entre os desenvolvedores de IA, com OpenAI e Anthropic agora travadas em uma disputa acirrada pela supremacia. Espera-se que o benchmark ALE se torne um ponto de referência padrão para futuras comparações de modelos, e ambas as empresas provavelmente acelerarão seus ciclos de desenvolvimento em resposta.

GPT-5.5 Supera Claude Fable 5 no Novo Benchmark Agents' Last Exam

Notícias relacionadas