AI Coding2026-06-03
TechCrunch AI
微軟工具讓開發者用文字描述測試 AI
微軟發布了一個名為 Adaptive Spec-driven Scoring for Evaluation and Regression Testing(ASSERT)的全新開源框架,旨在簡化開發者測試 AI 代理的方式。該工具允許工程師使用簡單的文字描述來建立 AI 行為測試,大幅降低了進行嚴格 AI 評估的門檻。
傳統的 AI 測試通常需要複雜的程式碼、自訂的評估指標以及大量的手動監督。ASSERT 透過讓開發者用自然語言編寫測試規範來改變這一點。例如,開發者可以編寫一個像「當被要求退款時,代理應先驗證購買日期,然後如果退貨期限已過,則提供商店信用額度」這樣的測試。ASSERT 隨後會自動生成評分標準,並針對 AI 代理的回應進行評估。
這種方法對於測試自主 AI 系統特別有價值,因為這類系統的行為可能難以預測,且邊緣情況很常見。使用 ASSERT,開發者可以建立一個全面的測試套件,涵蓋預期行為、錯誤處理和安全限制——全部用簡單的英文表達。
該框架旨在與現有的 CI/CD 流程整合,允許團隊在每次更新其 AI 模型時執行回歸測試。這確保了新功能不會破壞現有功能,這是生產級 AI 系統的關鍵要求。
微軟將 ASSERT 定位為其對負責任 AI 開發更廣泛承諾的一部分。透過使測試特定行為和限制變得更容易,該工具有助於開發者在問題回應到達用戶之前就將其捕獲。它還透過允許團隊指定跨不同人口群體的期望結果,來支援公平性和偏見測試。
對於開發者社群而言,ASSERT 代表著向更易於使用的 AI 測試實踐的轉變。任何熟悉編寫測試的開發者,無需具備專門的機器學習專業知識,就能夠驗證 AI 行為。