OpenAI因数据污染问题弃用SWE-bench Verified基准

OpenAI宣布将停止使用SWE-bench Verified基准来评估其模型，理由是对数据污染和有缺陷的测量日益担忧。该公司发现，基准测试集中的问题可能已泄露到公共训练数据中，从而人为地夸大了模型性能。这种“污染”问题是AI基准测试中的一个主要挑战。