NVIDIA Nemotron

什么是 NVIDIA Nemotron？

NVIDIA Nemotron 3 Ultra 是一款拥有 5500 亿参数的混合专家（MoE）语言模型，其中活跃参数为 550 亿，专为编排复杂、长期运行的 AI 智能体工作流而设计。它融合了前沿推理能力、高吞吐量和领域适应性，使智能体能够保持上下文、使用工具并在多轮交互中高效运行。用户可部署它来处理关键推理任务，例如在编码会话中维持架构决策，或综合来自数百个研究来源的矛盾证据。

Application scenarios

智能体编排
处理智能体工作流中最关键的决策，例如在编码会话中维持架构决策。
长周期规划
管理具有扩展规划视野的复杂多步骤任务，如 EnterpriseOps-Gym 基准测试所示。
编码与终端任务
支持基于终端的编码基准测试（如 Terminal-Bench 2.0），用于自动化开发工作流。
指令遵循
在复杂指令遵循任务上保持高准确率（IFBench：82%）。
知识工作
擅长专业工作任务，包括基于搜索的知识工作（ProfBench Search：56%）。
长上下文处理
可处理高达 100 万 token 的上下文窗口（Ruler @1M：95%），从而能够分析大量文档或研究资料。

主要特性

混合 Mamba-Transformer 层： 结合状态空间模型与 Transformer 架构，可在扩展的智能体交互中高效处理长上下文。
NVFP4 量化： 支持在多种 GPU 架构上部署，与标准精度相比，吞吐量可提升高达 5 倍。
LatentMoE 专家路由： 优化每个输入由哪些专家子模型处理，提升混合专家模型的推理效率。
多 token 预测： 通过同时预测多个 token，提高多轮任务的生成速度。
多教师在线蒸馏： 利用来自十多个领域特定教师模型的密集反馈进行训练，持续提升领域专业化水平。
开放配方、权重与许可： 提供完全开放的模型权重、训练配方和许可，便于开发者广泛采用和微调。
透明的预训练与强化学习数据管道： 提供完全文档化的预训练和强化学习数据管道，支持可复现性和定制化。

目标用户

构建需要前沿推理、复杂规划和工具使用的长期运行智能体系统的 AI 开发者和工程师。这包括从事自主编码助手、研究综合工具、芯片设计验证和企业智能体编排的团队。开放的模型和配方也适用于需要对模型进行微调或领域适配以用于专门工作流的研究人员和机构。

如何使用 NVIDIA Nemotron？

通过 NVIDIA 开发者门户（developer.nvidia.com）访问该模型。开发者可以下载开放的模型权重、训练配方和数据管道文档。该模型设计用于利用 NVFP4 量化在各种 GPU 架构上高效部署推理。为集成到智能体工作流中，开发者可将其用作规划、推理和工具调用的编排层，同时搭配更高效的模型处理高并发的执行任务。

效果评估

NVIDIA Nemotron 3 Ultra 在智能体生产力（PinchBench：91%）、长上下文处理（Ruler @1M：95%）和指令遵循（IFBench：82%）等基准测试中表现强劲，在多项关键指标上优于 Kimi K2.6（1 万亿参数）等更大模型。其混合架构和量化支持使其在实际部署中具有实用性，而开放的许可和透明的训练流程降低了定制门槛。然而，该模型在长周期规划方面（EnterpriseOps-Gym：33%）表现不及 GLM 5.1（40%），表明在多步骤战略推理方面仍有改进空间。总体而言，对于构建既需要推理深度又需要运行效率的复杂智能体系统的开发者来说，这是一款功能强大、可用于生产环境的模型。

Frequently Asked Questions

什么是NVIDIA Nemotron？

NVIDIA Nemotron是一款专为长时间运行代理设计的强大AI模型，在扩展交互中提供高效推理、上下文保持和工具使用能力。

Nemotron与其他AI模型有何不同？

Nemotron擅长在长对话中保持上下文和推理，非常适合需要持续关注的复杂多步骤任务。

Nemotron可以使用外部工具吗？

是的，Nemotron设计为与外部工具集成，使其能够在扩展交互中执行数据检索或API调用等操作。

Nemotron适合实时应用吗？

是的，Nemotron针对高效推理和低延迟响应进行了优化，适合实时代理应用。

运行Nemotron需要什么硬件？

Nemotron在NVIDIA GPU上运行，利用其架构实现高性能，但具体要求取决于模型大小和部署方式。

开发者如何开始使用Nemotron？

开发者可以通过NVIDIA的AI平台（如NVIDIA AI Enterprise）或提供NVIDIA GPU的云服务访问Nemotron。