微软工具让开发者通过文本描述测试 AI

微软发布了一个名为自适应规范驱动评分评估与回归测试（ASSERT）的新开源框架，旨在简化开发者测试 AI 代理的方式。该工具允许工程师使用简单的文本描述创建 AI 行为测试，极大地降低了进行严格 AI 评估的门槛。传统的 AI 测试通常需要复杂的代码、自定义评估指标和大量的人工监督。ASSERT 改变了这一点，它允许开发者用自然语言编写测试规范。例如，开发者可以编写一个测试，如“当被要求退款时，代理应首先验证购买日期，如果退货期限已过，则提供商店信用额度”。ASSERT 随后会自动生成评分标准，并针对 AI 代理的响应运行评估。这种方法对于测试自主 AI 系统尤其有价值，因为这类系统的行为可能不可预测，且边缘情况很常见。使用 ASSERT，开发者可以构建一个全面的测试套件，涵盖预期行为、错误处理和安全约束——所有这些都用简单的英语表达。该框架旨在与现有的 CI/CD 流水线集成，允许团队在每次更新 AI 模型时运行回归测试。这确保了新功能不会破坏现有功能，这是生产级 AI 系统的关键要求。微软将 ASSERT 定位为其对负责任 AI 开发更广泛承诺的一部分。通过使测试特定行为和约束变得更加容易，该工具有助于开发者在问题响应到达用户之前就将其捕获。它还支持测试公平性和偏见，允许团队指定跨不同人口群体的期望结果。对于开发者社区而言，ASSERT 代表了向更易用的 AI 测试实践的转变。任何熟悉编写测试的开发者，无需专门的机器学习专业知识，就能验证 AI 行为。

微软工具让开发者通过文本描述测试 AI

相关资讯