Multimodal2026-05-31
Google AI Blog
9 Demonstrações do Gemini Omni e Gemini 3.5 em Ação
O Google lançou nove novos vídeos de demonstração mostrando as notáveis capacidades de seus mais recentes modelos de IA, Gemini Omni e Gemini 3.5, que foram oficialmente anunciados no Google I/O 2026. As demonstrações fornecem uma visão prática de como esses modelos estão ultrapassando os limites da inteligência artificial multimodal.
Os vídeos destacam vários avanços importantes que diferenciam o Gemini Omni e o Gemini 3.5 de seus antecessores. Uma das demonstrações mais impressionantes envolve a compreensão de vídeo em tempo real. Na demonstração, o modelo assiste a um feed de vídeo ao vivo de uma pessoa montando um móvel e fornece orientação verbal passo a passo, corrigindo erros e respondendo a perguntas sobre o processo à medida que ocorrem.
Outra demonstração foca no raciocínio complexo entre diferentes tipos de dados. Um usuário mostra ao modelo um esboço feito à mão de um processo de negócios, carrega uma planilha relacionada e pede uma análise por escrito. O Gemini Omni integra perfeitamente as informações visuais do esboço com os dados numéricos da planilha para produzir um relatório coerente e perspicaz.
As demonstrações também mostram capacidades aprimoradas de interação em tempo real. Ao contrário dos modelos anteriores que exigiam uma pausa entre entrada e saída, o Gemini 3.5 demonstra um fluxo de conversação quase instantâneo, completo com a capacidade de interromper, fazer perguntas esclarecedoras e ajustar seu tom com base no feedback do usuário. Isso torna as interações mais naturais e humanas.
Outras demonstrações incluem geração avançada de código a partir de diagramas de quadro branco, tradução de idiomas em tempo real com consciência contextual e a capacidade de analisar conteúdo de vídeo de longa duração, como uma palestra completa, e gerar um resumo detalhado com carimbos de data/hora. Esses vídeos, coletivamente, pintam um quadro de um ecossistema de IA que está se tornando mais integrado, intuitivo e capaz de lidar com a natureza confusa e multimodal dos problemas do mundo real. O Google disponibilizou a lista de reprodução completa em seu canal oficial do YouTube para desenvolvedores e entusiastas.