微軟工具讓開發者用文字描述測試 AI

微軟發布了一個名為 Adaptive Spec-driven Scoring for Evaluation and Regression Testing（ASSERT）的全新開源框架，旨在簡化開發者測試 AI 代理的方式。該工具允許工程師使用簡單的文字描述來建立 AI 行為測試，大幅降低了進行嚴格 AI 評估的門檻。傳統的 AI 測試通常需要複雜的程式碼、自訂的評估指標以及大量的手動監督。ASSERT 透過讓開發者用自然語言編寫測試規範來改變這一點。例如，開發者可以編寫一個像「當被要求退款時，代理應先驗證購買日期，然後如果退貨期限已過，則提供商店信用額度」這樣的測試。ASSERT 隨後會自動生成評分標準，並針對 AI 代理的回應進行評估。這種方法對於測試自主 AI 系統特別有價值，因為這類系統的行為可能難以預測，且邊緣情況很常見。使用 ASSERT，開發者可以建立一個全面的測試套件，涵蓋預期行為、錯誤處理和安全限制——全部用簡單的英文表達。該框架旨在與現有的 CI/CD 流程整合，允許團隊在每次更新其 AI 模型時執行回歸測試。這確保了新功能不會破壞現有功能，這是生產級 AI 系統的關鍵要求。微軟將 ASSERT 定位為其對負責任 AI 開發更廣泛承諾的一部分。透過使測試特定行為和限制變得更容易，該工具有助於開發者在問題回應到達用戶之前就將其捕獲。它還透過允許團隊指定跨不同人口群體的期望結果，來支援公平性和偏見測試。對於開發者社群而言，ASSERT 代表著向更易於使用的 AI 測試實踐的轉變。任何熟悉編寫測試的開發者，無需具備專門的機器學習專業知識，就能夠驗證 AI 行為。

微軟工具讓開發者用文字描述測試 AI

相关资讯