OpenAI e Broadcom lançam chip de inferência para LLMs

OpenAI e Broadcom revelaram o Jalapeño, um chip de IA customizado construído especificamente para inferência de grandes modelos de linguagem (LLMs). O chip tem como objetivo melhorar performance, eficiência e escala em sistemas de IA, marcando um passo significativo no desenvolvimento de silício personalizado para cargas de trabalho de IA. Diferente de GPUs de uso geral, o Jalapeño é otimizado para as demandas únicas da inferência de LLMs — processando quantidades massivas de dados com baixa latência enquanto minimiza o consumo de energia. A arquitetura do chip foca em acelerar multiplicações de matrizes e mecanismos de atenção, que são os pilares computacionais dos modelos de linguagem modernos. Benchmarks iniciais sugerem que o Jalapeño pode entregar velocidades de inferência até 3 vezes mais rápidas comparadas a soluções existentes, com uma redução de 50% no uso de energia. Esse desenvolvimento é crucial à medida que os modelos de IA se tornam maiores e mais complexos. Empresas que implantam chatbots, assistentes de código e ferramentas de geração de conteúdo precisam de hardware que acompanhe as demandas em tempo real sem custos disparados. Ao projetar um chip especificamente para inferência, OpenAI e Broadcom estão atacando um gargalo que tem limitado a adoção generalizada de LLMs em ambientes de produção. A parceria também sinaliza uma tendência mais ampla de integração vertical em IA. Em vez de depender apenas de hardware padrão, as principais empresas de IA estão investindo em silício personalizado para ganhar vantagem competitiva. O Jalapeño deve estar disponível para provedores de nuvem selecionados até meados de 2025, com disponibilidade mais ampla em seguida. Para desenvolvedores e empresas, isso significa inferência de IA mais rápida, barata e escalável — abrindo caminho para aplicações ainda mais ambiciosas.

OpenAI e Broadcom lançam chip de inferência para LLMs

Notícias relacionadas