AI Coding2026-02-24OpenAI BlogOpenAI因数据污染问题弃用SWE-bench Verified基准OpenAI宣布将停止使用SWE-bench Verified基准来评估其模型,理由是对数据污染和有缺陷的测量日益担忧。该公司发现,基准测试集中的问题可能已泄露到公共训练数据中,从而人为地夸大了模型性能。这种“污染”问题是AI基准测试中的一个主要挑战。阅读原文