英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进：

" 最高效的开放模型家族 "Nemotron 3，混合 Mamba-Transformer MoE 架构、NVFP4 低精度训练全用上。

而且开放得很彻底：

不仅开放模型权重，还要把超过 10 万亿 token 的训练数据、预训练和后训练软件、训练配方全部公开。

与其他开源模型相比性能有竞争力，且速度快 1.5-3.3 倍。

把 Mamba 和 Transformer 混着用

Nemotron 3 在架构层面追求推理效率的最大化。

传统 Transformer 的自注意力机制需要对不断增长的 KV Cache 做线性扫描，序列越长，计算开销越大。

英伟达的解决方案是大量使用 Mamba-2 层替代自注意力层—— Mamba 层在生成时只需要存储固定大小的状态，不受序列长度影响。

以 Nano 型号为例，整个模型主要由交替堆叠的 Mamba-2 层和 MoE 层构成，自注意力层只保留了少数几个。

论文给出的层排布模式是：5 个 Mamba-2+MoE 的重复单元，接 3 个同样结构的单元，再来 1 个包含注意力层的单元，最后是 4 个 Mamba-2+MoE 单元。

在 8k 输入、16k 输出的典型推理场景下，Nemotron 3 Nano 30B-A3B 的吞吐量是 Qwen3-30B-A3B 的 3.3 倍。序列越长，优势越明显。

与此同时，模型在长上下文任务上的表现并没有打折扣。

论文展示了一组 RULER 基准测试的结果：在 100 万 token 输入长度下，Nemotron 3 Nano 基座模型拿到了 68.2 分，而在同样条件下训练的 Nemotron 2 Nano 12B 只有 23.43 分，出现了断崖式下跌。MoE 混合架构在长度外推上的鲁棒性明显更好。

LatentMoE：在潜空间里做专家路由

针对 Super 和 Ultra 这两个更大的模型，英伟达提出了 LatentMoE 架构，在潜在空间中进行专家计算。

MoE 层在实际部署时会遇到两类瓶颈：

低延迟场景下，每次只处理几十到几百个 token，此时从显存读取专家权重成为主要开销。

高吞吐场景下，一次处理数千 token，此时专家间的 all-to-all 通信成为瓶颈。两种情况下，开销都与隐藏维度 d 线性相关。

LatentMoE 的做法是：先把 token 从原始隐藏维度 d 投影到一个更小的潜在维度ℓ（通常是 d 的四分之一），在这个低维空间里完成专家路由和计算，最后再投影回原始维度。

这样一来，每个专家的权重加载量和通信量都降低了 d/ ℓ倍。省下来的计算预算被用于增加专家数量和每个 token 激活的专家数。

标准 MoE 用 128 个专家、激活 6 个；LatentMoE 用 512 个专家、激活 22 个。

两者的总参数量和激活参数量几乎相同（都是 8B 激活、73B 总参），但 LatentMoE 在所有下游任务上都取得了更好的成绩—— MMLU-Pro 从 48.30 提升到 52.87，代码任务从 51.95 提升到 55.14，数学任务从 78.32 提升到 80.19。

需要注意的是，路由门控网络、共享专家计算以及非专家层仍然保留在原始维度，因为这些部分对瓶颈的贡献很小。

用 NVFP4 训练 250 亿 token

Super 和 Ultra 还采用了 NVFP4 格式进行训练，这是英伟达在低精度训练上的又一次探索。

NVFP4 是一种 4 位浮点格式，采用 E2M1 的元素格式（2 位指数、1 位尾数），配合 16 元素的微块缩放和 E4M3 格式的块缩放因子。在 GB300 上，FP4 的峰值吞吐量是 FP8 的 3 倍。

论文显示，团队已经用 NVFP4 格式稳定训练了高达 25 万亿 token。与 BF16 训练相比，Nano 模型的损失差距控制在 1% 以内，8B 激活参数的更大模型差距进一步缩小到 0.6% 以内。

在 MMLU、GSM8K、HumanEval 等下游任务上，NVFP4 训练的模型与 BF16 版本的准确率曲线几乎完全重合。

不过并非所有层都适合量化到 NVFP4。团队发现 Mamba 输出投影层在量化后会出现高达 40% 的 flush-to-zero 现象，因此保留在 MXFP8 精度；QKV 投影和注意力投影保留在 BF16 以维持少量注意力层的保真度；网络最后 15% 的层也保持高精度以确保稳定性。MTP 层和潜在投影由于对推理时间影响很小，同样保留在 BF16。

多环境强化学习一把训到底

Nemotron 3 的后训练采用了多环境强化学习，覆盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。

与之前分阶段训练不同能力的做法不同，这次英伟达选择同时训练所有任务。

论文指出，这种同步训练方式更稳定，更不容易出现 reward hacking，也避免了分阶段训练常见的能力退化问题。

AIME25 数学分数从 80 提升到 90，LiveCodeBench 从 65 提升到 72，τ² -Bench 工具使用从 40 提升到 50 左右，全程呈稳定上升趋势。

高效的推理吞吐量在这里发挥了重要作用。

大规模 RL 需要生成海量 rollout 样本，Nemotron 3 的混合架构相比其他开源模型有显著优势。

团队还采用了异步 RL 架构来解耦训练和推理，并利用多 token 预测加速 rollout 生成。训练算法方面使用 GRPO 配合 masked importance sampling 来处理训练策略和 rollout 策略之间的差异。

整个后训练软件栈以 Apache 2.0 协议开源，包括 NeMo-RL（可扩展 RL 训练）和 NeMo-Gym（RL 环境集合）两个仓库。

此外，Nemotron 3 还支持推理时的思维预算控制。

用户可以指定思维链的最大 token 数，当模型达到预算时，追加一个标记即可让模型基于部分思维链生成最终回答。

论文给出了准确率与平均生成 token 数之间的权衡曲线，这为实际部署中的效率 - 精度平衡提供了细粒度控制。

论文地址：

https://arxiv.org/abs/2512.20856

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签