Microsoft、テキスト記述でAIをテストできるツールを開発者向けに公開

Microsoftは、開発者がAIエージェントをテストする方法を簡素化するために設計された、新しいオープンソースフレームワーク「Adaptive Spec-driven Scoring for Evaluation and Regression Testing（ASSERT）」をリリースしました。このツールにより、エンジニアは簡単なテキスト記述を使用してAIの動作テストを作成でき、厳格なAI評価へのハードルを劇的に下げることができます。従来のAIテストでは、複雑なコード、カスタム評価指標、広範な手動監視が必要となることがよくありました。ASSERTは、開発者が自然言語でテスト仕様を記述できるようにすることで、これを変えます。例えば、開発者は「返金を求められた場合、エージェントは最初に購入日を確認し、返品期間が過ぎている場合はストアクレジットを提供する必要がある」といったテストを記述できます。ASSERTはその後、自動的にスコアリング基準を生成し、AIエージェントの応答に対して評価を実行します。このアプローチは、動作が予測不可能でエッジケースが一般的な自律型AIシステムのテストに特に価値があります。ASSERTを使用すれば、開発者は期待される動作、エラー処理、安全制約をすべて平易な英語で表現した包括的なテストスイートを構築できます。このフレームワークは、既存のCI/CDパイプラインと統合できるように設計されており、チームはAIモデルを更新するたびに回帰テストを実行できます。これにより、新しい機能が既存の機能を壊さないことが保証され、これは本番AIシステムにとって重要な要件です。 MicrosoftはASSERTを、責任あるAI開発へのより広範な取り組みの一部として位置づけています。特定の動作や制約をテストしやすくすることで、このツールは開発者が問題のある応答をユーザーに届く前に捕捉するのに役立ちます。また、さまざまな人口統計グループにわたって望ましい結果を指定できるようにすることで、公平性とバイアスのテストもサポートします。開発者コミュニティにとって、ASSERTはよりアクセスしやすいAIテスト手法への移行を表しています。AIの動作を検証するために専門的な機械学習の専門知識を必要とする代わりに、テストケースの書き方に精通した開発者なら誰でも、ASSERTを使用して堅牢な評価を構築できます。

Microsoft、テキスト記述でAIをテストできるツールを開発者向けに公開

関連ニュース