AI Coding2026-02-24OpenAI Blog

OpenAI因数据污染问题弃用SWE-bench Verified基准

OpenAI宣布将停止使用SWE-bench Verified基准来评估其模型,理由是对数据污染和有缺陷的测量日益担忧。该公司发现,基准测试集中的问题可能已泄露到公共训练数据中,从而人为地夸大了模型性能。这种“污染”问题是AI基准测试中的一个主要挑战。

相关资讯

更多 AI 资讯

AIStart.ai · 您的个性化 AI 起始页