量子位 16小时前
英伟达成美国大模型开源标杆:Nemotron 3连训练配方都公开,10万亿token数据全放出
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_caijing1.html

 

英伟达在开源模型上玩的很激进:

" 最高效的开放模型家族 "Nemotron 3,混合 Mamba-Transformer MoE 架构、NVFP4 低精度训练全用上。

而且开放得很彻底:

不仅开放模型权重,还要把超过 10 万亿 token 的训练数据、预训练和后训练软件、训练配方全部公开。

与其他开源模型相比性能有竞争力,且速度快 1.5-3.3 倍。

把 Mamba 和 Transformer 混着用

Nemotron 3 在架构层面追求推理效率的最大化。

传统 Transformer 的自注意力机制需要对不断增长的 KV Cache 做线性扫描,序列越长,计算开销越大。

英伟达的解决方案是大量使用 Mamba-2 层替代自注意力层—— Mamba 层在生成时只需要存储固定大小的状态,不受序列长度影响。

以 Nano 型号为例,整个模型主要由交替堆叠的 Mamba-2 层和 MoE 层构成,自注意力层只保留了少数几个。

论文给出的层排布模式是:5 个 Mamba-2+MoE 的重复单元,接 3 个同样结构的单元,再来 1 个包含注意力层的单元,最后是 4 个 Mamba-2+MoE 单元。

在 8k 输入、16k 输出的典型推理场景下,Nemotron 3 Nano 30B-A3B 的吞吐量是 Qwen3-30B-A3B 的 3.3 倍。序列越长,优势越明显。

与此同时,模型在长上下文任务上的表现并没有打折扣。

论文展示了一组 RULER 基准测试的结果:在 100 万 token 输入长度下,Nemotron 3 Nano 基座模型拿到了 68.2 分,而在同样条件下训练的 Nemotron 2 Nano 12B 只有 23.43 分,出现了断崖式下跌。MoE 混合架构在长度外推上的鲁棒性明显更好。

LatentMoE:在潜空间里做专家路由

针对 Super 和 Ultra 这两个更大的模型,英伟达提出了 LatentMoE 架构,在潜在空间中进行专家计算。

MoE 层在实际部署时会遇到两类瓶颈:

低延迟场景下,每次只处理几十到几百个 token,此时从显存读取专家权重成为主要开销。

高吞吐场景下,一次处理数千 token,此时专家间的 all-to-all 通信成为瓶颈。两种情况下,开销都与隐藏维度 d 线性相关。

LatentMoE 的做法是:先把 token 从原始隐藏维度 d 投影到一个更小的潜在维度ℓ(通常是 d 的四分之一),在这个低维空间里完成专家路由和计算,最后再投影回原始维度。

这样一来,每个专家的权重加载量和通信量都降低了 d/ ℓ倍。省下来的计算预算被用于增加专家数量和每个 token 激活的专家数。

标准 MoE 用 128 个专家、激活 6 个;LatentMoE 用 512 个专家、激活 22 个。

两者的总参数量和激活参数量几乎相同(都是 8B 激活、73B 总参),但 LatentMoE 在所有下游任务上都取得了更好的成绩—— MMLU-Pro 从 48.30 提升到 52.87,代码任务从 51.95 提升到 55.14,数学任务从 78.32 提升到 80.19。

需要注意的是,路由门控网络、共享专家计算以及非专家层仍然保留在原始维度,因为这些部分对瓶颈的贡献很小。

用 NVFP4 训练 250 亿 token

Super 和 Ultra 还采用了 NVFP4 格式进行训练,这是英伟达在低精度训练上的又一次探索。

NVFP4 是一种 4 位浮点格式,采用 E2M1 的元素格式(2 位指数、1 位尾数),配合 16 元素的微块缩放和 E4M3 格式的块缩放因子。在 GB300 上,FP4 的峰值吞吐量是 FP8 的 3 倍。

论文显示,团队已经用 NVFP4 格式稳定训练了高达 25 万亿 token。与 BF16 训练相比,Nano 模型的损失差距控制在 1% 以内,8B 激活参数的更大模型差距进一步缩小到 0.6% 以内。

在 MMLU、GSM8K、HumanEval 等下游任务上,NVFP4 训练的模型与 BF16 版本的准确率曲线几乎完全重合。

不过并非所有层都适合量化到 NVFP4。团队发现 Mamba 输出投影层在量化后会出现高达 40% 的 flush-to-zero 现象,因此保留在 MXFP8 精度;QKV 投影和注意力投影保留在 BF16 以维持少量注意力层的保真度;网络最后 15% 的层也保持高精度以确保稳定性。MTP 层和潜在投影由于对推理时间影响很小,同样保留在 BF16。

多环境强化学习一把训到底

Nemotron 3 的后训练采用了多环境强化学习,覆盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。

与之前分阶段训练不同能力的做法不同,这次英伟达选择同时训练所有任务。

论文指出,这种同步训练方式更稳定,更不容易出现 reward hacking,也避免了分阶段训练常见的能力退化问题。

AIME25 数学分数从 80 提升到 90,LiveCodeBench 从 65 提升到 72,τ² -Bench 工具使用从 40 提升到 50 左右,全程呈稳定上升趋势。

高效的推理吞吐量在这里发挥了重要作用。

大规模 RL 需要生成海量 rollout 样本,Nemotron 3 的混合架构相比其他开源模型有显著优势。

团队还采用了异步 RL 架构来解耦训练和推理,并利用多 token 预测加速 rollout 生成。训练算法方面使用 GRPO 配合 masked importance sampling 来处理训练策略和 rollout 策略之间的差异。

整个后训练软件栈以 Apache 2.0 协议开源,包括 NeMo-RL(可扩展 RL 训练)和 NeMo-Gym(RL 环境集合)两个仓库。

此外,Nemotron 3 还支持推理时的思维预算控制。

用户可以指定思维链的最大 token 数,当模型达到预算时,追加一个标记即可让模型基于部分思维链生成最终回答。

论文给出了准确率与平均生成 token 数之间的权衡曲线,这为实际部署中的效率 - 精度平衡提供了细粒度控制。

论文地址:

https://arxiv.org/abs/2512.20856

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 nano 开源 mamba
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论