GPT-5.5 supera a Claude Fable 5 en el nuevo benchmark Agents...

En un giro sorprendente de los acontecimientos, GPT-5.5 de OpenAI ha superado a Claude Fable 5 de Anthropic en el recién publicado benchmark Agents' Last Exam (ALE). El benchmark ALE, diseñado por una coalición de investigadores, está considerado una de las pruebas más rigurosas de las capacidades de la IA, evaluando a los modelos en razonamiento complejo, resolución de problemas en múltiples pasos y ejecución de tareas del mundo real. GPT-5.5 obtuvo una puntuación significativamente más alta, tomando por sorpresa a muchos en la comunidad de IA, ya que Claude Fable 5 había sido ampliamente considerado como el modelo líder en varias evaluaciones anteriores. Los resultados destacan el rápido ritmo de mejora en los modelos de IA, con cada nueva iteración superando los límites de lo posible. Los investigadores señalaron que GPT-5.5 destacó particularmente en tareas que requieren planificación a largo plazo y toma de decisiones adaptativa, áreas donde Claude Fable 5 había mostrado previamente fortaleza. Los resultados del benchmark han provocado discusiones sobre el panorama competitivo en evolución entre los desarrolladores de IA, con OpenAI y Anthropic ahora encerrados en una reñida carrera por la supremacía. Se espera que el benchmark ALE se convierta en un punto de referencia estándar para futuras comparaciones de modelos, y es probable que ambas empresas aceleren sus ciclos de desarrollo en respuesta.

GPT-5.5 supera a Claude Fable 5 en el nuevo benchmark Agents' Last Exam

Noticias relacionadas