GPT-5.5 schlägt Claude Fable 5 im neuen Agents‘ Last Exam Be...

In einer überraschenden Wendung hat OpenAI‘s GPT-5.5 Anthropic‘s Claude Fable 5 im neu veröffentlichten Agents‘ Last Exam (ALE) Benchmark übertroffen. Der ALE-Benchmark, entwickelt von einem Forscherkonsortium, gilt als einer der strengsten Tests für KI-Fähigkeiten und bewertet Modelle hinsichtlich komplexer Schlussfolgerungen, mehrstufiger Problemlösung und der Ausführung realer Aufgaben. GPT-5.5 erzielte eine deutlich höhere Punktzahl und überraschte damit viele in der KI-Community, da Claude Fable 5 in mehreren vorherigen Bewertungen weithin als das führende Modell galt. Die Ergebnisse unterstreichen das rasante Tempo der Verbesserungen bei KI-Modellen, wobei jede neue Iteration die Grenzen des Möglichen verschiebt. Die Forscher stellten fest, dass GPT-5.5 besonders bei Aufgaben glänzte, die langfristige Planung und adaptive Entscheidungsfindung erforderten – Bereiche, in denen Claude Fable 5 zuvor Stärke gezeigt hatte. Die Benchmark-Ergebnisse haben Diskussionen über die sich entwickelnde Wettbewerbslandschaft unter KI-Entwicklern ausgelöst, wobei OpenAI und Anthropic nun in einem engen Rennen um die Vorherrschaft liegen. Es wird erwartet, dass der ALE-Benchmark zu einem Standardreferenzpunkt für zukünftige Modellvergleiche wird, und beide Unternehmen werden wahrscheinlich ihre Entwicklungszyklen als Reaktion darauf beschleunigen.

GPT-5.5 schlägt Claude Fable 5 im neuen Agents‘ Last Exam Benchmark

Verwandte Nachrichten