AI Infrastructure2026-04-03
MIT Technology Review
AI基准测试已失效;需要新的评估体系
评估人工智能的标准剧本——让模型在图像识别或问答等任务上与人类基准对标——已经从根本上失效了。这些指标虽然有助于追踪原始性能,却未能捕捉AI的真正潜力和现实世界的影响。我们迫切需要一个新的评估框架,用以衡量AI如何增强人类能力以及在复杂系统内进行协作。
当前的基准测试常常助长一种狭隘的、竞争性的观点,即视AI为人类的替代品。这没有抓住重点。AI的最大价值在于其与人类合作的能力,以独立分数无法量化的方式提升创造力、决策力和生产力。我们需要停止问“AI能完成这个任务吗?”,转而开始问“AI与人类的团队如何表现得更出色?”
这种新的评估范式将评估诸如协作流畅度、解释推理的能力、技能放大效应以及系统级韧性等因素。它将衡量AI工具如何提高团队的输出质量、减轻认知负荷或加速创新周期。
转向这种以人为中心、注重增强能力的框架对开发者、企业和政策制定者至关重要。它将AI的发展与真实的人类需求和经济价值对齐,引导这项技术从单纯的新奇事物转变为各个努力领域中不可或缺、赋能人类的合作伙伴。
