Microsoft-Tool ermöglicht Entwicklern das Testen von KI mit ...

Microsoft hat ein neues Open-Source-Framework namens Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASSERT) veröffentlicht, das entwickelt wurde, um zu vereinfachen, wie Entwickler KI-Agenten testen. Das Tool ermöglicht es Ingenieuren, KI-Verhaltenstests mit einfachen Textbeschreibungen zu erstellen, was die Hürde für eine rigorose KI-Bewertung drastisch senkt. Traditionelles KI-Testen erfordert oft komplexen Code, benutzerdefinierte Bewertungsmetriken und umfangreiche manuelle Überwachung. ASSERT ändert dies, indem es Entwicklern erlaubt, Testspezifikationen in natürlicher Sprache zu schreiben. Beispielsweise könnte ein Entwickler einen Test wie 'Wenn nach einer Rückerstattung gefragt wird, sollte der Agent zuerst das Kaufdatum überprüfen und dann einen Gutschein anbieten, wenn das Rückgabefenster abgelaufen ist' schreiben. ASSERT generiert dann automatisch Bewertungskriterien und führt Bewertungen gegen die Antworten des KI-Agenten durch. Dieser Ansatz ist besonders wertvoll für das Testen autonomer KI-Systeme, bei denen das Verhalten unvorhersehbar sein kann und Randfälle häufig sind. Mit ASSERT können Entwickler eine umfassende Testsuite aufbauen, die erwartetes Verhalten, Fehlerbehandlung und Sicherheitseinschränkungen abdeckt – alles in einfachem Englisch ausgedrückt. Das Framework ist so konzipiert, dass es in bestehende CI/CD-Pipelines integriert werden kann, sodass Teams jedes Mal Regressionstests durchführen können, wenn sie ihre KI-Modelle aktualisieren. Dies stellt sicher, dass neue Fähigkeiten keine bestehenden Funktionen beeinträchtigen, eine kritische Anforderung für KI-Systeme in der Produktion. Microsoft hat ASSERT als Teil seines umfassenderen Engagements für verantwortungsvolle KI-Entwicklung positioniert. Indem das Tool das Testen auf spezifische Verhaltensweisen und Einschränkungen erleichtert, hilft es Entwicklern, problematische Antworten abzufangen, bevor sie die Benutzer erreichen. Es unterstützt auch das Testen auf Fairness und Voreingenommenheit, indem es Teams ermöglicht, gewünschte Ergebnisse für verschiedene demografische Gruppen festzulegen. Für die Entwicklergemeinschaft stellt ASSERT eine Verschiebung hin zu zugänglicheren KI-Testpraktiken dar. Anstatt spezialisiertes maschinelles Lernwissen zu benötigen, um KI-Verhalten zu validieren, kann jeder Entwickler, der mit dem Schreiben von Tests vertraut ist, dieses Framework nutzen.

Microsoft-Tool ermöglicht Entwicklern das Testen von KI mit Textbeschreibungen

Noticias relacionadas