El optimizador IndexCache acelera la inferencia de IA de con...

Un avance de investigadores de la Universidad de Tsinghua y Z.ai promete hacer que los modelos de IA que manejan documentos largos sean dramáticamente más rápidos y baratos. La nueva técnica, llamada IndexCache, es un método de optimización de atención dispersa diseñado para abordar el alto costo computacional y la latencia del procesamiento de contextos extensos. Al identificar y eliminar hasta el 75% de los cálculos redundantes, IndexCache ofrece velocidades de inferencia hasta 1.82 veces más rápidas para secuencias de hasta 200,000 tokens. Esto aborda un cuello de botella crítico para aplicaciones que requieren un análisis profundo de textos extensos, como la revisión de documentos legales, la investigación de formato largo y la generación de contenido de longitud de libro. La innovación podría reducir significativamente la barrera para usar modelos de IA de contexto largo, haciéndolos más prácticos y rentables para un uso empresarial y de investigación generalizado.

El optimizador IndexCache acelera la inferencia de IA de contexto largo

Noticias relacionadas