OpenAI Drops SWE-bench Verified Due to Contamination Issues

OpenAI has announced it will cease using the SWE-bench Verified benchmark to evaluate its models, citing growing concerns over data contamination and flawed measurement. The company identified issues where problems from the benchmark's test set may have leaked into public training data, artificially inflating model performance. This 'contamination' problem is a major challenge in AI benchmarking. If a model has been indirectly trained on test questions, it may memorize solutions rather than dem

Leer original

Noticias relacionadas

Los modelos Frontier de OpenAI y Codex ya están disponibles en AWS2026-06-02 · OpenAI Blog
Openway Rompe Terreno para un Centro de Datos de 1 GW en Míchigan2026-06-02 · OpenAI Blog
La facturación basada en tokens de GitHub Copilot provoca indignación entre los desarrolladores2026-05-31 · TechCrunch AI
Braintrust utiliza OpenAI Codex para convertir solicitudes en código2026-05-31 · OpenAI Blog
OpenAI lanza Rosalind Biodefense para la preparación ante pandemias2026-05-30 · OpenAI Blog