《麻省理工科技评论》：AI基准测试已失效，亟需替代方案

通过让AI在狭隘任务上与人类对决来评估人工智能的标准做法存在根本缺陷，亟需替代方案。一篇有力的评论文章指出，当前的基准测试常常提出“AI能完成这项人类任务吗？”这样的问题，这创造了一幅关于现实世界智能和影响的简单化且具有误导性的图景。这些传统指标未能捕捉到AI系统如何实际融入人类工作流程、其更广泛的经济和社会效应，或者它们进行有意义协作的能力。在特定测试中取得高分，并不等同于在专业环境中成为一个有用、可靠或合乎道德的合作伙伴。文章呼吁建立超越任务完成度的新评估框架。未来的基准测试应衡量AI增强人类团队、适应动态环境、解释其推理过程以及为复杂流程做出积极贡献的能力。目标不是在孤立状态下评估智能，而是在情境中评估——评估AI系统作为更大的人机系统内的组成部分如何运作，以推动切实的积极成果。