ハイブリッドMamba-Transformer層
状態空間モデルとトランスフォーマーアーキテクチャを組み合わせ、拡張されたエージェントインタラクション全体で効率的な長いコンテキスト処理を実現します。
NVFP4量子化
標準精度と比較して最大5倍のスループットで、複数のGPUアーキテクチャへのデプロイを可能にします。
LatentMoEエキスパートルーティング
各入力に対してどのエキスパートサブモデルが処理するかを最適化し、Mixture-of-Experts推論の効率を向上させます。
マルチトークン予測
複数のトークンを同時に予測することで、マルチターンタスクの生成速度を向上させます。
マルチティーチャー・オンポリシー蒸留
10以上のドメイン固有の教師モデルからの密なフィードバックでトレーニングすることにより、ドメイン特化を継続的に改善します。
オープンなレシピ、重み、ライセンス
完全にオープンなモデル重み、トレーニングレシピ、ライセンスを提供し、開発者による広範な採用とファインチューニングを可能にします。
透明な事前学習とRLデータパイプライン
事前学習と強化学習のための完全に文書化されたデータパイプラインを提供し、再現性とカスタマイズを可能にします。
NVIDIAのNemotron 3 Ultraは、効率的な推論、コンテキスト保持、ツール使用により、長時間実行されるAIエージェントを可能にします。
分類:エージェント
タグ:NVIDIA Nemotron、AIエージェント、長文推論、ツール使用、効率的AI