直击GTC：1万亿美元GPU、为龙虾做“CUDA”，老黄就指着你烧 token 了

今年显然又是英伟达这家 33 岁公司又一个关键时刻，人们像期待数码产品一样期待它的芯片更新，对超预期的财报甚至都提不起兴趣，眼看有些江郎才尽的时刻，黄仁勋又带来了新的故事。

3 月 16 日，在 2026 年英伟达 GTC 大会上，黄仁勋做了万众期待的主旨演讲。人们看待英伟达，关心和担心的都是它的增长。而今年 GTC，一个花 200 亿美金收购来的 Groq，一个突然就改变了一切并看起来解决了 " 应用普及问题 " 的 OpenClaw，成了增长故事里的绝对主角。

Groq 的新芯片融入英伟达体系后，英伟达宣称会给它的客户们解锁一个 3000 亿美金的增量市场；

同时英伟达也会把 Groq 更深入融入下一代芯片架构 Feynman 里；

而在他绝对不会迟到的 " 小龙虾 " 狂热里，黄仁勋要让英伟达变成 OpenClaw 们的底层，再次上演一出 CUDA 同样的戏码。

尽管相比 GTC 最辉煌的那些发布，今年的整个发布的大多时间显得有点乏善可陈，但这些已经足够让黄仁勋信心满满，他表示：

2025 年到 2027 年，英伟达的芯片生意将会继续上涨，涨到 1 万亿美金。

Vera Rubin + Groq，七颗芯片合体

黄仁勋展示了他形容为全新的 AI 基础设施层的全貌。

他不再举着一颗芯片说 "this is our new GPU" 了。他把整个 Vera Rubin 机架搬上了舞台，说这一次英伟达想的是整套系统，从芯片到软件到互连，端到端垂直整合，作为一台超级计算机来优化。

上一代 Blackwell Ultra 已经实现了对比 Hopper 50 倍的吞吐效率提升，而 Vera Rubin + Groq 在此基础上又把前沿推到了新的区间，这套系统由七颗芯片组成。核心 Rubin GPU 采用台积电 3nm 工艺，双芯片封装，336B 晶体管，配备 288GB HBM4 内存和 22TB/s 带宽，NVFP4 推理性能达到 50 PFLOPs，比上一代 Blackwell 提升 5 倍，训练性能 35 PFLOPs，提升 3.5 倍。配套的 Vera CPU 是 88 核定制 Arm 架构（代号 Olympus），176 线程，全球首款在数据中心采用 LPDDR5X 的 CPU，专门为 Agent 推理场景下的高单线程性能和数据处理做了优化。黄仁勋说这颗 CPU 独立卖 " 肯定会成为数十亿美元的业务 "。

但今晚真正的新闻是第七颗芯片，Groq 3 LPU。去年圣诞夜英伟达花 200 亿美元拿下 Groq 的技术授权和核心团队，今天是首次产品落地，而且已经在量产。

为什么需要 Groq？黄仁勋在台上讲得很清楚，GPU 擅长高吞吐的并行计算，做 prefill 和 attention 很强，但在超高速 token 生成这个区间会力不从心。他的原话是 NVL72 在超过 400 tokens/s/user 的区间 "runs out of steam"（跑不动了）。而 Groq 的 LPU 是一种完全不同的处理器，确定性数据流架构，芯片上全是 SRAM，没有运行时动态调度，编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的 decode 和 token 生成。

问题在于 SRAM 虽快但容量极小。单颗 Groq 3 LPU 只有 500MB SRAM，而 Rubin GPU 是 288GB HBM4，差了 500 多倍，根本存不下万亿参数的模型。英伟达的解法是用一套叫 Dynamo 的软件把推理过程拆成两半，Rubin 负责 prefill 和 attention，处理上下文需要大量算力和大容量内存；Groq 负责 feed-forward 部分的 decode 和 token 生成，需要极低延迟和极高带宽。两者通过以太网紧耦合，延迟减半。

黄仁勋管这个叫 disaggregated inference（解耦推理），并且总结说高吞吐和低延迟本质上 enemies of each other（彼此矛盾），而 Groq 就是解决这个矛盾的那一半拼图。

舞台上的那张对比图视觉冲击很强。

左边一颗 Rubin GPU，288GB HBM4、22TB/s 带宽、50 PFLOPs。

右边一排 8 颗 Groq 3 LPU 组成的阵列，4GB SRAM、1,200TB/s SRAM 带宽（Rubin 的 55 倍）、9.6 PFLOPs。

两种极端的处理器，统一成一个推理系统。Groq 3 LPX 整机把 256 颗 LPU 装进一个机架，提供 128GB SRAM、40PB/s 带宽、315 PFLOPS 推理算力和 640TB/s 互连带宽。

整套 NVL72 系统 100% 液冷，用 45 度热水冷却，把原来花在空调上的能耗省回来给计算用。安装时间从两天压缩到两小时。第六代 NVLink 提供 3.6TB/s 全互连带宽。首款 CPO（共封装光学）交换机 Spectrum X 已经量产。

目前，微软 Azure 已经跑起了第一套 Vera Rubin 机架，Satya Nadella 在演讲期间直接发消息确认。

黄仁勋还给了一个极其直观的对比，同一个 1GW 数据中心，两年内 token 生成速率从 2200 万提升到 7 亿，350 倍。他说这就是极致协同设计的力量。

1 万亿 GPU，和新的商业模式可能

在演讲里，黄仁勋再次给出数据的指引。

去年 GTC 他给出的关于英伟达产品的需求估算是 5000 亿美元（覆盖 Blackwell 和 Rubin 到 2026 年），而今年直接翻倍，他说现在看到的是：

到 2027 年至少 1 万亿美元。

驱动力是他反复提到的 " 推理拐点 "，从 ChatGPT 到 o1 再到 Claude Code，AI 从能聊天变成能推理再变成能干活，每一步跳跃都让单次推理需要的算力暴增，而使用量也在同步起飞。黄仁勋说 Claude Code 是第一个 agentic model，英伟达 100% 的软件工程师都在用。

然后他用一张图把这个宏观判断翻译成了具体的商业逻辑。

整场演讲最值得反复看的就是这张，标题叫 inference Performance and Efficiency Drive Company Results。

纵轴是吞吐量（TPS/MW，每兆瓦每秒生成的 token 数），横轴是交互速度（TPS/User，每用户每秒拿到的 token 数）。横轴越往右意味着 AI 越 " 聪明 "，模型更大、上下文更长、思考链更深，但吞吐量会下降，因为资源被单个用户的推理任务占用了更多。高吞吐和低延迟本质上矛盾。

黄仁勋在横轴上切了五档定价。Free 层用 Qwen 3（235B 参数，32K 上下文，免费），Medium 层用 Kimi K2.5（1T 参数，128K 上下文，3 美元 / 百万 token），High 层用 GPT MoE（2T 参数，128K，6 美元），Premium 层同样是 GPT MoE 但上下文窗口拉到 400K、价格到 45 美元，Ultra 层 150 美元。

然后他把四代硬件的曲线叠上去。Hopper 只能覆盖 Free 和 Medium 层，在高交互区间曲线贴着底部。Blackwell 大幅上移，让 Premium 层变得经济可行。Vera Rubin 再上一档。加上 Groq LPX 之后，曲线在 400+ TPS/User 的高交互区间向右延伸出去，对比 Hopper 提升 35 倍，让一个目前还不存在的 Ultra 层（150 美元 / 百万 token）成为可能。

作为一个 " 首席销售 "，在第二张图，黄仁勋直接把这个逻辑翻译成了营收数字。

假设一个 1GW 数据中心按 25% 算力分配给每个层级，每 GW 年营收 Blackwell 能做 300 亿美元，Rubin 做 1500 亿（5 倍），加上 Groq LPX 做 3000 亿（10 倍）。

两张图合在一起看，叙事逻辑很清晰：第一张为了告诉大家，Rubin 让 Premium 推理（$45/M tokens）变得赚钱，而第二张则证明了，Rubin + LPX 可以让一个尚不存在的 Ultra 推理市场（$150/M tokens）成为可能。

黄仁勋借此定义了一套 token 定价阶梯，并在这最重要的大会上，直接告诉所有客户，这里面每一层的经济可行性都直接绑定在英伟达的硬件代际升级上。

换句话说，没有我的芯片，你到不了下一个价格层级，你的商业模型跑不通。有了我，商业模型的新可能就出现了。

" 数据中心是生产 token 的工厂；推理是工作负载，token 是新商品，算力等于营收；未来每个 CEO 都要盯着自己 token 工厂的效能看。"

他继续推销英伟达：" 用得越多省钱阅多。我们是唯一一个在每一个模型里都在被使用的产品，这让我们成为最强又最便宜的。英伟达的系统是全球范围内你可获取的成本最低的 AI 基础设施。 "

黄仁勋甚至直接给了不同客户部署方案：如果工作负载主要是高吞吐的批量推理，100% 配 Vera Rubin 就够了。如果有大量编程、高价值实时推理和 Agent 交互需求，拿 25% 数据中心配 Groq LPX，其余 75% 纯 Rubin。

Feynman 剧透，2028 年全部换代

在 Rubin 介绍完后，Feynman 的剧透来了。

英伟达给自己路线图节奏锁死，每年一代新架构。当前 Blackwell，2026 下半年 Vera Rubin，2027 年 Rubin Ultra 搭配全新 Kyber 机架（计算节点改为垂直插入，前置计算后置互连，支持 144 颗 GPU），2028 年 Feynman。

Feynman 是黄仁勋今晚的 one more thing 式剧透，七个组件全部换代。全新 GPU（此前传闻台积电 A16 1.6nm），LP40 LPU（黄仁勋说是 big step up，Groq 团队加入英伟达后共同设计，首次在 LPU 中加入 NVFP4 计算能力），Rosa CPU（全名 Rosalind，致敬发现 DNA 结构的 Rosalind Franklin），BlueField 5 DPU，ConnectX-10 SuperNIC，NVLink 8。Kyber 机架同时支持铜缆和 CPO 光学互连。

关于铜缆还是光互连的行业争论，黄仁勋一句话终结，铜的要做，光的也要做，CPO 也要做，每一种都需要更多的产能。

中间他还顺便提了 Vera Rubin Space-1，要把计算模块送上太空做数据中心。太空没有传导和对流只有辐射，散热是个问题，但英伟达已经在做了。

为龙虾做 "CUDA"，NemoClaw 定义 Agent 时代的操作系统

对于最近疯狂的龙虾热，黄仁勋称 Agent 是一个全新的计算平台，并直接把 OpenClaw 的定位拔到了和 Windows、Linux、Kubernetes 同一级别。

他用操作系统的语法拆解了 OpenClaw 的本质，管理资源、调度任务、调用工具、连接大模型、多模态 IO、派生子 Agent。OpenClaw 几周内超越 Linux 30 年的 GitHub Star 数，是人类历史上增长最快的开源项目。黄仁勋认为它的意义等同于 HTML 之于互联网、Kubernetes 之于移动云，每家公司都需要一个 OpenClaw 战略。

然后话锋一转，讲了企业场景的致命问题。Agent 在公司内网能访问敏感信息、能执行代码、能对外通信。黄仁勋让全场默念了一遍这三条，然后说，这显然不能被允许。

NemoClaw 就是英伟达的解法，但它不是另起炉灶，而是给 OpenClaw 套上一层企业安全壳。核心组件叫 OpenShell，已经集成进 OpenClaw，包含策略引擎接口（对接企业已有的安全合规系统）、网络护栏（限制 Agent 网络访问边界）和隐私路由（防止敏感数据外传）。开源，Apache 2.0 协议，深度整合 NeMo 框架、Nemotron 模型和 NIM 推理微服务。

这里的类比关系是，NemoClaw 之于 OpenClaw 生态，就像 CUDA 之于 GPU 生态。

CUDA 让 GPU 从游戏显卡变成了通用计算平台，NemoClaw 要让龙虾从个人玩具变成企业基础设施。OpenClaw 提供了 Agent 的操作系统，NemoClaw 提供了在这个操作系统上安全运行企业应用的开发平台和工具链。

黄仁勋的行业判断是，未来每家 SaaS 公司都会变成 GaaS（Generative-as-a-Service）公司，企业 IT 从 2 万亿美元的工具产业升级为多万亿美元的 Agent 产业。他甚至预测未来每个工程师入职时都会拿到一份年度 token 预算，基本工资之外再加一半用于购买 token，让个人生产力放大 10 倍。" 你的 offer 带多少 token" 会成为硅谷新的谈判筹码。

配合 Agent 生态，英伟达同时宣布了 Nemotron Coalition（开源模型联盟）。六大模型家族全部达到前沿水平，Nemotron（语言推理，OpenClaw 评测前三）、Cosmos（物理 AI 世界模型）、Alpamayo（自动驾驶，号称首个会思考推理的自动驾驶 AI）、GR00T（通用机器人）、BioNeMo（生物化学）、Earth 2（天气气候）。Nemotron 3 Ultra 定位为世界最好的基础模型，供各国做主权 AI 定制。联盟首批成员包括 Black Forest Labs、Cursor、LangChain（10 亿 + 下载量）、Mistral、Perplexity、Thinking Machines（Mira Murati 创办）等。

英伟达的增长故事不能停。这一次一个可能成为近年英伟达最重要的收购的 Groq，和一个突然出现的现象级全民狂热的 OpenClaw 让这个故事得以继续，黄仁勋也抓住了这些被他形容为 " 必须抓住的时间窗口 "，把大量资源赌在了上面，剩下的，就靠各位一起疯狂烧 token 了。

宙世代

一起剪

相关标签