NVIDIA Nemotron

NVIDIA Nemotron

O Nemotron 3 Ultra da NVIDIA permite agentes de IA de longa duração com raciocínio eficiente, retenção de contexto e uso de ferramentas em interações prolongadas.

O que é o NVIDIA Nemotron?

O NVIDIA Nemotron 3 Ultra é um modelo de linguagem de Mistura de Especialistas (MoE) com 550 bilhões de parâmetros e 55 bilhões de parâmetros ativos, projetado especificamente para orquestrar fluxos de trabalho complexos e de longa duração de agentes de IA. Ele combina raciocínio de ponta com alta taxa de transferência e adaptabilidade de domínio, permitindo que os agentes mantenham o contexto, usem ferramentas e operem de forma eficiente em várias interações. Os usuários o implantam para lidar com tarefas críticas de raciocínio, como sustentar decisões arquiteturais em sessões de codificação ou sintetizar evidências contraditórias de centenas de fontes de pesquisa.

Cenários de aplicação

  • Orquestração de agentes

    Lida com as decisões mais difíceis em fluxos de trabalho de agentes, como sustentar decisões arquiteturais em sessões de codificação.

  • Planejamento de longo prazo

    Gerencia tarefas complexas de várias etapas com horizontes de planejamento estendidos, conforme demonstrado nos benchmarks EnterpriseOps-Gym.

  • Tarefas de codificação e terminal

    Suporta benchmarks de codificação baseados em terminal, como o Terminal-Bench 2.0, para fluxos de trabalho de desenvolvimento automatizados.

  • Seguimento de instruções

    Mantém alta precisão em tarefas complexas de seguimento de instruções (IFBench: 82%).

  • Trabalho de conhecimento

    Destaca-se em tarefas profissionais, incluindo trabalho de conhecimento baseado em pesquisa (ProfBench Search: 56%).

  • Processamento de contexto longo

    Lida com janelas de contexto de até 1 milhão de tokens (Ruler @1M: 95%), permitindo a análise de documentos extensos ou fontes de pesquisa.

Principais funcionalidades

  • Camadas híbridas Mamba-Transformer

    Combina arquiteturas de modelo de espaço de estado e transformer para processamento eficiente de contexto longo em interações estendidas de agentes.

  • Quantização NVFP4

    Permite a implantação em várias arquiteturas de GPU com até 5x mais taxa de transferência em comparação com a precisão padrão.

  • Roteamento de especialista LatentMoE

    Otimiza quais submodelos especialistas lidam com cada entrada, melhorando a eficiência na inferência de Mistura de Especialistas.

  • Predição de múltiplos tokens

    Aumenta a velocidade generativa para tarefas de múltiplas interações ao prever vários tokens simultaneamente.

  • Destilação On-Policy com Múltiplos Professores

    Melhora continuamente a especialização de domínio ao treinar com feedback denso de mais de dez modelos professores específicos de domínio.

  • Receitas, pesos e licenciamento abertos

    Fornece pesos de modelo totalmente abertos, receitas de treinamento e licenciamento para ampla adoção e ajuste fino por desenvolvedores.

  • Pré-treinamento transparente e pipeline de dados RL

    Oferece um pipeline de dados totalmente documentado para pré-treinamento e aprendizado por reforço, permitindo reprodutibilidade e personalização.

Público-alvo

Desenvolvedores e engenheiros de IA que constroem sistemas de agentes de longa duração que exigem raciocínio de ponta, planejamento complexo e uso de ferramentas. Isso inclui equipes que trabalham em assistentes de codificação autônomos, ferramentas de síntese de pesquisa, verificação de design de chips e orquestração de agentes empresariais. O modelo aberto e as receitas também são adequados para pesquisadores e organizações que precisam ajustar ou adaptar o modelo a domínios para fluxos de trabalho especializados.

Como usar o NVIDIA Nemotron?

Acesse o modelo através do portal do desenvolvedor da NVIDIA (developer.nvidia.com). Os desenvolvedores podem baixar os pesos abertos do modelo, as receitas de treinamento e a documentação do pipeline de dados. O modelo é projetado para implantação em várias arquiteturas de GPU usando a quantização NVFP4 para inferência eficiente. Para integração em fluxos de trabalho de agentes, os desenvolvedores podem usá-lo como a camada de orquestração para planejamento, raciocínio e chamada de ferramentas, enquanto o emparelham com modelos mais eficientes para tarefas de execução de alto volume.

Análise de desempenho

O NVIDIA Nemotron 3 Ultra oferece desempenho robusto em benchmarks de produtividade de agentes (PinchBench: 91%), processamento de contexto longo (Ruler @1M: 95%) e seguimento de instruções (IFBench: 82%), superando modelos maiores como o Kimi K2.6 (1 trilhão de parâmetros) em várias métricas importantes. Sua arquitetura híbrida e suporte a quantização o tornam prático para implantação no mundo real, enquanto o licenciamento aberto e o pipeline de treinamento transparente reduzem as barreiras para personalização. No entanto, o modelo apresenta desempenho inferior em planejamento de longo prazo (EnterpriseOps-Gym: 33%) em comparação com o GLM 5.1 (40%), sugerindo espaço para melhoria no raciocínio estratégico de várias etapas. No geral, é um modelo capaz e pronto para produção para desenvolvedores que constroem sistemas de agentes sofisticados que precisam tanto de profundidade de raciocínio quanto de eficiência operacional.

Perguntas frequentes

O que é o NVIDIA Nemotron?
O NVIDIA Nemotron é um modelo de IA poderoso projetado para agentes de longa duração, oferecendo raciocínio eficiente, retenção de contexto e uso de ferramentas em interações prolongadas.
O que torna o Nemotron diferente de outros modelos de IA?
O Nemotron se destaca por manter o contexto e o raciocínio em conversas longas, tornando-o ideal para tarefas complexas e de múltiplas etapas que exigem atenção sustentada.
O Nemotron pode usar ferramentas externas?
Sim, o Nemotron é projetado para integrar-se com ferramentas externas, permitindo realizar ações como recuperação de dados ou chamadas de API durante interações prolongadas.
O Nemotron é adequado para aplicações em tempo real?
Sim, o Nemotron é otimizado para raciocínio eficiente e respostas de baixa latência, tornando-o adequado para aplicações de agente em tempo real.
Qual hardware é necessário para executar o Nemotron?
O Nemotron é executado em GPUs NVIDIA, aproveitando sua arquitetura para alto desempenho, mas os requisitos específicos dependem do tamanho do modelo e da implantação.
Como os desenvolvedores podem começar a usar o Nemotron?
Os desenvolvedores podem acessar o Nemotron através das plataformas de IA da NVIDIA, como o NVIDIA AI Enterprise ou através de serviços em nuvem que oferecem GPUs NVIDIA.

NVIDIA Nemotron - Detalhes da ferramenta de IA

O Nemotron 3 Ultra da NVIDIA permite agentes de IA de longa duração com raciocínio eficiente, retenção de contexto e uso de ferramentas em interações prolongadas.

Categoria: Agents

Link: https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/

Etiquetas: NVIDIA Nemotron, Agentes de IA, Raciocínio de contexto longo, Uso de ferramentas, IA eficiente