AI Coding2026-06-03TechCrunch AI

微软工具让开发者通过文本描述测试 AI

微软发布了一个名为自适应规范驱动评分评估与回归测试(ASSERT)的新开源框架,旨在简化开发者测试 AI 代理的方式。该工具允许工程师使用简单的文本描述创建 AI 行为测试,极大地降低了进行严格 AI 评估的门槛。 传统的 AI 测试通常需要复杂的代码、自定义评估指标和大量的人工监督。ASSERT 改变了这一点,它允许开发者用自然语言编写测试规范。例如,开发者可以编写一个测试,如“当被要求退款时,代理应首先验证购买日期,如果退货期限已过,则提供商店信用额度”。ASSERT 随后会自动生成评分标准,并针对 AI 代理的响应运行评估。 这种方法对于测试自主 AI 系统尤其有价值,因为这类系统的行为可能不可预测,且边缘情况很常见。使用 ASSERT,开发者可以构建一个全面的测试套件,涵盖预期行为、错误处理和安全约束——所有这些都用简单的英语表达。 该框架旨在与现有的 CI/CD 流水线集成,允许团队在每次更新 AI 模型时运行回归测试。这确保了新功能不会破坏现有功能,这是生产级 AI 系统的关键要求。 微软将 ASSERT 定位为其对负责任 AI 开发更广泛承诺的一部分。通过使测试特定行为和约束变得更加容易,该工具有助于开发者在问题响应到达用户之前就将其捕获。它还支持测试公平性和偏见,允许团队指定跨不同人口群体的期望结果。 对于开发者社区而言,ASSERT 代表了向更易用的 AI 测试实践的转变。任何熟悉编写测试的开发者,无需专门的机器学习专业知识,就能验证 AI 行为。

相关资讯