Product Launch2026-06-03
VentureBeat
Perplexity AI Revela Sistema Híbrido de Inferência Local-Nuvem
A Perplexity AI revelou um inovador orquestrador híbrido de inferência local-servidor na Computex 2026, prometendo mudar fundamentalmente a forma como as cargas de trabalho de IA são implantadas. O sistema, que a empresa chama de "EdgeMind", decide autonomamente em tempo real se deve executar uma tarefa de IA no dispositivo local do usuário ou na nuvem, otimizando desempenho, privacidade e custo.
Esta é uma mudança significativa em relação ao paradigma atual, onde a inferência de IA é inteiramente baseada na nuvem (exigindo conectividade constante com a internet e levantando preocupações de privacidade) ou inteiramente no dispositivo (limitada pelas capacidades de hardware). O EdgeMind avalia dinamicamente cada solicitação, considerando fatores como tamanho do modelo, requisitos de latência, sensibilidade dos dados e condições atuais da rede.
Por exemplo, uma consulta simples como resumir um documento local pode ser tratada inteiramente no laptop do usuário, garantindo privacidade e latência zero. Uma tarefa complexa como gerar uma imagem de alta resolução ou analisar um grande conjunto de dados seria transferida perfeitamente para a nuvem, onde GPUs mais potentes estão disponíveis. A transição é invisível para o usuário, que simplesmente vê os resultados aparecerem.
"Acreditamos que o futuro da IA não é apenas na nuvem ou apenas no dispositivo, mas uma parceria fluida entre os dois", disse Aravind Srinivas, CEO da Perplexity AI, durante o keynote da Computex. "O EdgeMind é o sistema operacional para essa parceria. Ele toma as decisões difíceis para que os usuários não precisem."
O sistema é projetado para funcionar com uma ampla gama de modelos, desde pequenos modelos de linguagem que podem rodar em um telefone até modelos de fronteira que exigem clusters de data centers. A Perplexity também lançou um kit de desenvolvimento de software que permite que desenvolvedores terceiros integrem o EdgeMind em suas próprias aplicações.
Demonstrações iniciais mostraram resultados impressionantes. Em um teste, um laptop executando o EdgeMind lidou com 70% das consultas de IA localmente, reduzindo os custos de nuvem em 60% enquanto mantinha tempos de resposta abaixo de 200 milissegundos. Tarefas sensíveis à privacidade, como processar m