Model Update2026-05-28Hugging Face Blog

ITBench-AA:前沿模型得分低于50%

一项名为ITBench-AA的新基准测试在AI行业引起震动,它揭示即使是最先进的前沿模型,在企业IT智能体任务上的得分也低于50%。由研究人员和企业IT领导者组成的联盟开发的ITBench-AA,是首个专门设计用于评估AI智能体在真实IT运维场景中表现的标准化基准测试。 该基准测试评估AI智能体在事件响应、系统配置、网络故障排除和合规审计等任务上的表现。尽管在通用语言理解和编码方面取得了快速进展,但结果显示,当前AI系统在企业IT环境所需的复杂性、模糊性和多步骤推理方面仍存在困难。表现最好的模型仅达到47%的准确率,而大多数模型低于40%。 这些发现凸显了AI能力中对企业采用至关重要的显著差距。IT运维涉及细微的决策制定、对遗留系统的理解以及严格安全协议的遵守——这些正是AI仍然不足的领域。基准测试的创建者认为,这不是失败,而是对行业必要的警钟。 其影响显而易见:虽然AI在狭窄、定义明确的任务上表现出色,但在企业IT中实现真正的智能体自主性仍然遥不可及。研究人员现在正利用ITBench-AA来指导开发,重点关注长期记忆、错误恢复和跨系统协调等领域。对于IT领导者而言,该基准测试提供了对AI当前能做什么和不能做什么的现实评估,有助于设定合理的期望。 随着对AI驱动IT运维的投资不断增长,ITBench-AA作为一个关键的现实检验。它强调,虽然潜力巨大,但我们仍处于构建能够可靠管理复杂、混乱的企业基础设施现实的AI智能体的早期阶段。

相关资讯