Ferramenta da Microsoft Permite que Desenvolvedores Testem I...

A Microsoft lançou uma nova estrutura de código aberto chamada Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASSERT), projetada para simplificar como os desenvolvedores testam agentes de IA. A ferramenta permite que engenheiros criem testes de comportamento de IA usando descrições de texto simples, reduzindo drasticamente a barreira para uma avaliação rigorosa de IA. O teste tradicional de IA muitas vezes requer código complexo, métricas de avaliação personalizadas e supervisão manual extensa. O ASSERT muda isso ao permitir que desenvolvedores escrevam especificações de teste em linguagem natural. Por exemplo, um desenvolvedor poderia escrever um teste como 'Quando solicitado um reembolso, o agente deve primeiro verificar a data da compra e depois oferecer um crédito na loja se o prazo de devolução tiver expirado.' O ASSERT então gera automaticamente critérios de pontuação e executa avaliações contra as respostas do agente de IA. Esta abordagem é particularmente valiosa para testar sistemas de IA autônomos, onde o comportamento pode ser imprevisível e os casos extremos são comuns. Com o ASSERT, os desenvolvedores podem construir um conjunto de testes abrangente que cobre comportamentos esperados, tratamento de erros e restrições de segurança — tudo expresso em inglês simples. A estrutura foi projetada para se integrar com pipelines de CI/CD existentes, permitindo que as equipes executem testes de regressão sempre que atualizarem seus modelos de IA. Isso garante que novas capacidades não quebrem funcionalidades existentes, um requisito crítico para sistemas de IA em produção. A Microsoft posicionou o ASSERT como parte de seu compromisso mais amplo com o desenvolvimento responsável de IA. Ao facilitar o teste de comportamentos e restrições específicos, a ferramenta ajuda os desenvolvedores a detectar respostas problemáticas antes que elas cheguem aos usuários. Ela também suporta testes de imparcialidade e viés, permitindo que as equipes especifiquem resultados desejados em diferentes grupos demográficos. Para a comunidade de desenvolvedores, o ASSERT representa uma mudança em direção a práticas de teste de IA mais acessíveis. Em vez de precisar de conhecimento especializado em aprendizado de máquina para validar o comportamento da IA, qualquer desenvolvedor familiarizado com a escrita de especificações de teste pode contribuir para garantir a confiabilidade e segurança dos sistemas de IA.

Ferramenta da Microsoft Permite que Desenvolvedores Testem IA com Descrições de Texto

Noticias relacionadas