Herramienta de Microsoft permite a los desarrolladores proba...

Microsoft ha lanzado un nuevo marco de código abierto llamado Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASSERT), diseñado para simplificar la forma en que los desarrolladores prueban agentes de IA. La herramienta permite a los ingenieros crear pruebas de comportamiento de IA utilizando descripciones de texto simples, reduciendo drásticamente la barrera para una evaluación rigurosa de la IA. Las pruebas de IA tradicionales a menudo requieren código complejo, métricas de evaluación personalizadas y una supervisión manual extensa. ASSERT cambia esto al permitir que los desarrolladores escriban especificaciones de prueba en lenguaje natural. Por ejemplo, un desarrollador podría escribir una prueba como 'Cuando se le solicite un reembolso, el agente debe primero verificar la fecha de compra y luego ofrecer un crédito en tienda si el período de devolución ha expirado'. ASSERT luego genera automáticamente criterios de puntuación y ejecuta evaluaciones contra las respuestas del agente de IA. Este enfoque es particularmente valioso para probar sistemas de IA autónomos, donde el comportamiento puede ser impredecible y los casos límite son comunes. Con ASSERT, los desarrolladores pueden construir un conjunto de pruebas completo que cubra comportamientos esperados, manejo de errores y restricciones de seguridad, todo expresado en inglés sencillo. El marco está diseñado para integrarse con los pipelines de CI/CD existentes, permitiendo a los equipos ejecutar pruebas de regresión cada vez que actualizan sus modelos de IA. Esto asegura que las nuevas capacidades no rompan la funcionalidad existente, un requisito crítico para los sistemas de IA en producción. Microsoft ha posicionado ASSERT como parte de su compromiso más amplio con el desarrollo responsable de IA. Al facilitar la prueba de comportamientos y restricciones específicos, la herramienta ayuda a los desarrolladores a detectar respuestas problemáticas antes de que lleguen a los usuarios. También admite pruebas de equidad y sesgo al permitir que los equipos especifiquen los resultados deseados en diferentes grupos demográficos. Para la comunidad de desarrolladores, ASSERT representa un cambio hacia prácticas de prueba de IA más accesibles. En lugar de necesitar experiencia especializada en aprendizaje automático para validar el comportamiento de la IA, cualquier desarrollador familiarizado con escribir pruebas puede ahora contribuir a garantizar la confiabilidad y seguridad de los sistemas de IA.

Herramienta de Microsoft permite a los desarrolladores probar IA con descripciones de texto

Noticias relacionadas