Multimodal2026-05-31
Google AI Blog
9 demostraciones de Gemini Omni y Gemini 3.5 en acción
Google ha publicado nueve nuevos videos de demostración que muestran las notables capacidades de sus últimos modelos de IA, Gemini Omni y Gemini 3.5, que fueron anunciados oficialmente en Google I/O 2026. Las demostraciones ofrecen una visión práctica de cómo estos modelos están ampliando los límites de la inteligencia artificial multimodal.
Los videos destacan varios avances clave que diferencian a Gemini Omni y Gemini 3.5 de sus predecesores. Una de las demostraciones más impresionantes implica la comprensión de video en tiempo real. En la demostración, el modelo observa una transmisión de video en vivo de una persona ensamblando un mueble y proporciona orientación verbal paso a paso, corrigiendo errores y respondiendo preguntas sobre el proceso a medida que ocurren.
Otra demostración se centra en el razonamiento complejo a través de diferentes tipos de datos. Un usuario muestra al modelo un boceto dibujado a mano de un proceso de negocio, sube una hoja de cálculo relacionada y solicita un análisis escrito. Gemini Omni integra perfectamente la información visual del boceto con los datos numéricos de la hoja de cálculo para producir un informe coherente y perspicaz.
Las demostraciones también muestran capacidades mejoradas de interacción en tiempo real. A diferencia de modelos anteriores que requerían una pausa entre la entrada y la salida, Gemini 3.5 demuestra un flujo conversacional casi instantáneo, completo con la capacidad de interrumpir, hacer preguntas aclaratorias y ajustar su tono según la retroalimentación del usuario. Esto hace que las interacciones se sientan más naturales y humanas.
Otras demostraciones incluyen generación avanzada de código a partir de diagramas de pizarra, traducción de idiomas en tiempo real con conciencia contextual y la capacidad de analizar contenido de video de formato largo, como una conferencia completa, y generar un resumen detallado con marcas de tiempo. Estos videos en conjunto pintan una imagen de un ecosistema de IA que se está volviendo más integrado, intuitivo y capaz de manejar la naturaleza desordenada y multimodal de los problemas del mundo real. Google ha puesto la lista de reproducción completa a disposición en su canal oficial de YouTube para desarrolladores y entusiastas.