Product Launch2026-06-26
VentureBeat
Mistral lanza OCR 4 para extracción empresarial de documentos
Mistral AI ha lanzado OCR 4, la última versión de su modelo de inteligencia documental, diseñado para transformar la forma en que las empresas extraen y procesan información de documentos. A diferencia de los sistemas tradicionales de reconocimiento óptico de caracteres (OCR) que simplemente convierten imágenes en texto, OCR 4 devuelve representaciones estructuradas de documentos completos, con cuadros delimitadores, clasificación por tipo de bloque y puntuaciones de confianza por palabra.
Este modelo de cuarta generación representa un salto significativo para Mistral, que ha ido mejorando constantemente sus capacidades de OCR desde la fundación de la empresa. La nueva versión está optimizada para casos de uso empresarial, donde la precisión y la estructura son primordiales.
"Los documentos son el alma de los negocios, pero a menudo son desordenados y no estructurados", dijo un ejecutivo de Mistral AI. "OCR 4 va más allá de la extracción de texto sin formato. Entiende el diseño, identifica encabezados, párrafos, tablas y figuras, y proporciona puntuaciones de confianza para cada palabra. Esto permite que los sistemas posteriores tomen decisiones informadas sobre la calidad de los datos".
El modelo es particularmente útil para industrias que manejan grandes volúmenes de documentos, como finanzas, legal, salud y logística. Por ejemplo, una compañía de seguros podría usar OCR 4 para procesar automáticamente formularios de reclamos, extrayendo no solo el texto sino también las relaciones espaciales entre los campos. Un bufete de abogados podría digitalizar contratos con cuadros delimitadores precisos para firmas y cláusulas.
Mistral también ha mejorado la capacidad del modelo para manejar documentos desafiantes, incluidos aquellos con poca iluminación, ángulos sesgados o fuentes complejas. Las puntuaciones de confianza por palabra permiten a los desarrolladores marcar extracciones inciertas para revisión humana, reduciendo errores sin sacrificar la automatización.
El lanzamiento llega en un momento en que el mercado de IA empresarial se vuelve cada vez más competitivo, con actores como Google, Microsoft y Amazon ofreciendo servicios de IA documental. Mistral se diferencia al centrarse en licencias de código abierto amigables y opciones de implementación local, atrayendo a organizaciones con estrictos requisitos de soberanía de datos.
OCR 4 ya está disponible a través de la API de Mistral y como modelo descargable para entornos autoalojados. La empresa planea seguir iterando, con versiones futuras que se espera admitan más idiomas y tipos de documentos.