作者|AI工作坊
来源 | AI深度研究员 管理智慧AI+
咨询合作| 13699120588
文章仅代表作者本人观点
欢迎来到 GTC。真是了不起的一年。
我们想在英伟达(NVIDIA)来做这件事,所以,通过人工智能的奇妙魔力,我们要把你带到英伟达总部。我想我正在把你带到英伟达总部。你觉得呢?这就是我们工作的地方。过去这一年太精彩了,我想让你们知道,我现在站在这里是没有演讲稿,没有提词器,而且我得讲很多内容。那就让我们开始吧。
首先,我要感谢所有赞助商,感谢所有与会的杰出人士。几乎每一个行业都有人参加:医疗保健行业在这里、交通行业、零售行业,当然还有计算机行业——每一家计算机行业相关的企业都在这里。所以非常非常高兴见到你们所有人,也感谢你们对大会的赞助。
GTC 的起点是 GeForce
一切都从 GeForce 开始。今天我在这里拿着一块 GeForce 5090。5090,难以置信,距离我们开始研发 GeForce 已经过去 25 年了。25 年以后,GeForce 在全球都卖断货。这就是 90,也就是 Blackwell 这一代产品。和4090相比,你看看它的体积缩小了 30%,散热效率提升了 30%,性能也极其强大,几乎无法相比。而这背后的原因就是人工智能。GeForce 把 CUDA 带给了世界,CUDA 让 AI 成为可能,而 AI 现在又回过头来彻底变革了计算机图形学。
你现在看到的是实时计算机图形,100% 光线追踪。每一个像素都经过了光线追踪,然后人工智能推断剩下的 15 个像素。想象一下:对于我们用数学方式真实渲染出的每一个像素,人工智能会推断另外 15 个像素。它必须以极高的精度来完成这一过程,让画面看起来正确,而且还要在时间维度上保持准确,这意味着在向前或向后播放时——毕竟这是计算机图形——画面都必须在帧与帧之间保持时间上的稳定。真是不可思议。
人工智能取得了非凡的进展
仅仅过去 10 年而已。我们讨论 AI 的时间稍长一些,但 AI 真正进入大众视野大约是 10 年前的事情,最先从感知 AI 开始——计算机视觉和语音识别。然后是生成式(AI)。过去 5 年里,我们主要关注的是生成式 AI,教会 AI 如何在不同模态之间进行转换,比如文本到图像、图像到文本、文本到视频、氨基酸到蛋白质、物性到化学物质……我们可以用 AI 生成各种内容。
生成式 AI 从根本上改变了计算的方式——从"检索式计算模型"变为了"生成式计算模型"。过去,我们几乎所有工作都是预先创建内容、存储多种版本,然后在需要时去获取相应的版本。而现在,AI 能理解上下文,理解我们在问什么,以及我们请求的含义,然后生成它所"理解"和"知道"的内容。如果需要,它还会检索信息来补充理解,最后生成答案;不再仅仅是检索数据,而是直接生成答案。这从根本上改变了计算的方式。
在过去几年里,计算的每一个层次都被彻底转变。过去两三年,出现了重大突破,也就是人工智能的根本性飞跃——我们称之为 "agentic AI"(具备自主性的 AI)。agentic AI 的意思是,AI 拥有"主动性"(agency)。它能感知并理解当前环境的上下文,很重要的一点是它能进行推理,能思考如何回答或解决问题,还能制定并执行计划。它可以使用工具,因为它现在理解多模态信息;它可以访问网站,查看网站的文本和视频格式,甚至可能播放视频,然后从该网站学到内容,理解之后,再带着这份新知识回来完成任务。
agentic AI 的基础是推理,这在过去是非常新的能力。接下来的一波浪潮已经在发生,我们今天会重点讨论——那就是机器人学。机器人由"物理 AI"推动,而"物理 AI"则是理解物理世界的 AI。它能理解摩擦力、惯性、因果关系、物体的"永久性"——当它看到一个物体拐到拐角处并消失于视线之外,并不代表那个物体就从世界上消失了,只是暂时看不到而已。对物理世界、三维世界的这种理解将开辟 AI 的新纪元,我们称之为"物理 AI",它将使机器人变得可行。
每一个阶段、每一波浪潮都为我们所有人带来新的市场机会,让更多新的合作伙伴加入 GTC。因此,如今的 GTC 可以说是爆满。想要容纳更多人参与,恐怕我们得把圣何塞扩建了。我们正在努力,我们有足够的土地来扩展圣何塞,好让 GTC 越办越大。
我现在站在这里,希望你们能看见我所看到的景象。我们现在处在一个体育场里。去年是我们首次回归线下,当时的场面就像一场摇滚音乐会,那次 GTC 被称为 AI 界的"伍德斯托克"盛会。而今年它被称为 AI 界的"超级碗"。唯一的区别在于,在这场"超级碗"里,每个人都是赢家。每年都有更多人加入,因为 AI 能解决更多行业、更多企业的各种有趣问题。今年我们会着重探讨 agentic AI 和物理 AI。
三大核心问题:数据、训练和扩展
从本质上说,每一波、每个阶段的 AI,都涉及三大根本问题。第一,如何解决数据问题。这之所以重要,是因为 AI 是一种数据驱动的数据科学方法,需要用数据来学习,需要数字化的经验来学习、获取知识。第二,如何在没有人工参与的情况下进行训练。因为人工干预是有极限的,而我们想要 AI 能以超越人类的速度来学习,几乎是实时的,而且规模要大到人类无法企及。所以第二个问题是:如何训练模型。第三,如何进行扩展(scale)。怎样找到一个算法,使得你提供越多的资源(不管是什么资源),AI 就变得越聪明。这被称为"scaling law"(扩展定律)。
过去这一年,几乎整个世界在这方面都看走眼了。AI 的计算需求及其扩展定律其实更具韧性,甚至可以说是超加速。由于 agentic AI、由于推理的出现,如今我们所需的计算量比一年前的预期至少高出 100 倍。让我们来解释一下为什么。
首先,从 AI 能做什么开始,逆推回去:agentic AI 的核心是推理。我们现在已有能进行推理的 AI,它能把问题分解为若干步骤。也许它会同时尝试几种方式来解决问题,然后选择最佳答案;也许它会用不同的方法去求解同一个问题,最后进行结果一致性检查;或者,它在得出答案后,还会把结果重新带回方程检查一遍,比如带回二次方程看看是否真的是正确答案,而不是像以前那样一次性随便给出一个答案。两年前,当我们开始使用 ChatGPT 时,虽然它已经非常神奇,但很多复杂问题或简单问题它也经常答错,这可以理解——它只做了一次性输出。它根据预训练数据(它在预训练数据中看到或学到的东西)进行一次性"输出",就像随口说出来一样。而现在我们有了能逐步推理的 AI,它利用"Chain of Thought"(思维链)、取多种解法里最优的和一致性检查等多种技术,一步一步地分解问题,进行推理。
由此可以想见,AI 所生成的 token数量会急剧增多。AI 的底层技术本质仍是根据上一个 token 来预测下一个 token。不同的是,现在"下一个 token"对应的是推理的某个步骤。AI 先生成第一步的一连串 token,然后把这一步的输出再次输入给 AI,用来生成第二步、第三步、第四步的推理。这样一来,AI 不再只是一字一句地往外"吐"token,而是生成一大段文字来表示推理的步骤。最终产生的 token 量会大大增加,我会在稍后展示这一点。很轻松就可能高出过去的 100 倍。
那么"100 倍"具体意味着什么?也许是生成了 100 倍的 token,如我刚才所说;或者,模型本身更复杂,只生成 10 倍的 token,但我们如果想让模型具备交互性、实时性,不想等它"思考"太久让人失去耐心,我们就要把计算速度再提高 10 倍。这样,10 倍的 token、10 倍的速度,就相当于需要 100 倍的计算量。因此在接下来的演讲中,你们会看到推理所需的计算量远超以往。
接下来的问题:如何教 AI 像我刚才描述的那样进行推理?如何让 AI 执行"chain of thought"?在训练中,我们面临两个根本性难题:1)数据从哪里来?2)如何避免"人工参与"带来的限制?因为人类能提供的示例数据是有限的。最近两年最重大的突破就是"强化学习"和可验证结果。也就是说,当 AI 一步一步地尝试解决问题时,我们可以使用强化学习对它进行奖励,让它越做越好。
举例来说,人类历史上已经解决了许多问题,我们知道答案,比如二次方程的解法,毕达哥拉斯定理,还有很多数学、几何、逻辑以及科学定理。另外我们还有一些益智类游戏,能提供约束条件,比如数独 等等。我们有数以百计的这种问题领域,可以生成数以百万计的不同例子,让 AI 有数以百计的机会去逐步求解。通过强化学习,它会不断获得奖励,从而表现越来越好。
因此,你把上百种不同的课题、几百万个不同的例子、再乘以上百次尝试、而每一次尝试都要生成数以万计的 token,把这一切加起来就达到了数万亿的 token,用来训练模型。现在有了强化学习,我们就能够利用"合成数据生成"的方法,以类似"机器人"的方式来教 AI。这两方面的结合给整个行业带来了巨大的计算挑战,而你能看到整个行业也正在全力应对。
Hopper 与 Blackwell:基础设施的爆发式增长
我接下来要展示的是 Hopper 的出货量——仅限于四大 CSP(云服务提供商):亚马逊、Azure、GCP 和 OCI。这四大 CSP 拥有公共云业务。我说的还不包括任何 AI 公司、不包括初创企业、不包括企业级用户,也不包括许多其他群体。仅仅这四家,能让你对比 Hopper 的峰值出货量和 Blackwell(译者注:NVIDIA 新一代架构)在第一年出货的对比数据。由此你可以看出,AI 的确正在经历一个拐点:它变得更强大、更具推理能力,也因此被更多人使用。你可以从 ChatGPT 的使用体验看出来,现在每次打开 ChatGPT,似乎等待时间都变长了,这反映了很多人在使用它,而且用得很有效。而训练这些模型、在推理中使用这些模型所需的计算量也随之飙升。仅仅在一年之内——而 Blackwell 刚开始出货——你就能看到 AI 基础设施的惊人增长。
这种增长也体现在整个计算领域。这张图里,紫色的部分是分析师们给出的预测:从现在到 2030 年,全球数据中心(包括 CSP 与企业数据中心等)的资本支出会出现大幅增长。我以前就说过,我预计数据中心的建设最终会达到万亿美元规模,而我非常确信我们很快会达成这一目标。这里有两个动力在同时发生:第一,绝大多数增长很可能都是加速计算,我们早就知道通用计算已经走到尽头,需要新的计算方式。全球正在经历一场从"手动编写软件跑在通用 CPU 上"到"机器学习软件跑在加速器和 GPU 上"的平台转变。以这种方式来进行计算,目前已经过了拐点,我们正看到数据中心建设的全面爆发。第二,大家也越来越认识到,软件的未来需要资本投入。这是一个非常重大的理念转变。
过去我们的模式是:先编写软件,再把软件放到计算机上运行。而未来,计算机本身会为软件生成 token。因此,这台计算机更像是一台"生成 token 的机器",而不是简单的"检索文件的机器"。也就是从"检索式计算"向"生成式计算"的转变,从过去传统方式建造数据中心,变为新的基础设施形态。我把它称为"AI 工厂",因为它只有一个功能,就是生成这些惊人的 token,然后我们再把这些 token 重构成音乐、文本、视频、研究数据、化学配方或者蛋白质……各种不同形式的信息。全世界不仅会建造更多数据中心,还会改变数据中心的构建方式。
并非所有计算都只为 AI,但一切都将被加速
我想在这里说一点。你们看到的这张幻灯片对我来说意义重大,因为多年来,你们一直在 GTC 上听我介绍这些库,其实整场 GTC 讲的也就是这些。这张幻灯片就是 GTC 的核心。事实上,大约 20 年前,我们只有一张类似的幻灯片,上面列出一个又一个库。你没法单单只加速软件,就像我们需要 AI 框架才能创建 AI,然后对这些 AI 框架进行加速一样;对于物理、生物、多物理场、量子物理等领域,我们也需要专门的库和框架。我们称之为 Cuda X 库,这些是各个科学领域的加速框架。
Ariel 是我们针对 5G 的库,将 GPU 变成 5G 无线电。为什么不行呢?信号处理本就是我们的强项。有了这个之后,我们还能在上面叠加 AI,称为 "AI RAN"。下一代无线电网络会深度融入 AI。为什么我们要受限于信息论?频谱资源就那么多,怎么突破?可以通过整合 AI。cuOpt 是用于数学优化的库,几乎各行各业都需要它,用于安排航班座位和航线、管理库存和客户、工厂劳动力调度、司机和乘客配对等等,都有多种约束和变量,需要在时间、收益、服务质量、资源利用率等方面做优化。我们英伟达也用它来做供应链管理。cuOpt 非常强大,可以把过去需要数小时的工作降到几秒钟完成,这是很重要的,因为这样我们就有足够的时间去探索更庞大的空间。我们宣布要将 cuOpt 开源。几乎所有人都在用 Gurobi、IBM CPLEX 或 FICO 等工具,我们和这些公司都有合作,业内对此非常兴奋——我们即将为整个行业带来大规模加速。
PairBricks 用于基因测序和基因分析;MONAI 是全球领先的医学影像库;Earth-2 是多物理场库,用于在极高分辨率下预测局部天气;cuQuantum 和 cudaQ 则是量子计算相关的库。我们在这届 GTC 首次设置了"Quantum Day",与几乎所有量子生态系统玩家都有合作,帮助他们研究量子架构、量子算法,或者构建"经典+量子"异构体系,非常令人兴奋。cu Equivariance、Tensor 并行压缩、量子化学……很多很多。这些就是在 Cuda 之上又构建了一层又一层的库,整合进各种生态系统、软件和基础设施,最终实现 AI。
我这里还有一个新的要宣布:cuDSS,这是我们的稀疏求解器,对计算机辅助工程(CAE)相当重要。过去一年里发生了一件大事:我们和 Cadence、Synopsys、ANSYS,还有一些做系统的公司进行了合作,使几乎所有重要的 EDA 和 CAE 库都能被加速。非常了不起。想想看,直到最近,英伟达还一直用运行在通用 CPU 上的那些超级慢的软件来设计我们自己的加速计算机,因为我们自己没有针对 EDA 的高效加速软件。现在我们终于有了,所以整个行业在向加速计算迈进时,将被大幅提速。
cuDF 是一个面向结构化数据的 DataFrame 库。我们现在已经实现了对 Spark 和 Pandas 的"零改动加速"。还有 Warp,这是一款针对物理模拟的 Python 库,用于 Cuda 加速,稍后我会有个重要公告。以上只是加速计算所需要的库的一个缩影。加速计算不仅是 Cuda,我们为 Cuda 感到骄傲,但如果没有 Cuda 以及它庞大的装机基础,这些库对开发者就毫无意义。使用这些库的开发者首先能获得惊人的加速和可扩展性;其次,因为现在 Cuda 的安装基础非常广泛,几乎每家云服务商、每个数据中心、每家计算机公司都提供 Cuda,遍布全球。因此,你若使用这些库,你的优秀软件就能被所有人使用。至此,我们可以说加速计算已经过了"引爆点",是 Cuda 带来了这种可能。而这一切,也离不开在座各位以及整个生态系统的贡献,这就是 GTC 的意义所在。为此,我们做了一个简短的视频送给你们。
AI 的开始
AI 的确是从云开始的,这是有道理的,因为 AI 需要基础设施——这是"机器学习"。如果科学叫"机器学习",那就需要"机器"来做这门科学。而云数据中心正好拥有所需的基础设施,也汇聚了顶尖的计算机科学和研究力量,是 AI 在云端迅速腾飞的完美环境。云服务提供商(CSP)自然而然成为早期的主要阵地。但 AI 不会只局限在云端,它会遍地开花。接下来我们会从多个角度探讨 AI。
云服务商当然喜欢我们的尖端技术,他们也喜欢我们拥有完整的"全栈"——因为加速计算如前所述,不是只有芯片,也不止有芯片和库,还需要编程模型,以及在其之上各种复杂的软件堆栈,每一层库都像一个 SQL(IBM 在存储计算领域革命性的东西)那样重要。而在 AI 领域,这样的库更多,堆栈更加复杂。云服务商还喜欢这样一点:NVIDIA CUDA 开发者也往往是云服务商的潜在客户,因为他们最终要把软件部署在云上面向世界,所以庞大的开发者生态对 CSP 至关重要。
现在我们要把 AI 带到世界的其他角落,而全世界在系统配置、操作环境、领域专用库、用例等方面都有巨大差异。当 AI 进入企业、制造业、机器人、自驾驶汽车等等领域时,需求又会不同。还有一些新兴的 GPU 云公司,大约 20 家左右,都是在 NVIDIA 崛起期间成立的,他们就干一件事:托管 GPU,称自己是"GPU 云"。我们的优秀合作伙伴之一 CoreWeave 正准备上市,我们也为他们感到自豪。这些 GPU 云各有各的需求。
我个人非常兴奋的一个方向是边缘端。今天我们宣布,思科、NVIDIA、T-Mobile(全球最大的电信公司之一)、Cerebras、ODC,将在美国构建一个面向无线电网络的完整堆栈。这会成为我们宣布的第二条堆栈。这个全新的堆栈将 AI 带到边缘端。要知道,每年大约有上千亿美元投资在无线网络和相关数据中心中,而我坚信,这些网络的未来毫无疑问是融合 AI 的加速计算。AI 可以更好地适应不断变化的无线环境和流量状态,毫无疑问我们会用强化学习去实现这一点。Massive MIMO(大规模多入多出)本质上就像一个巨大的无线机器人,有了 AI,自然能在信号调度上做得更好。
我们当然会提供相关功能,AI 肯定也会革新通信领域。你看 AI 是怎么改变视频处理的,也看到了我之前讲的对 3D 图形的改变,同理可得我们也会这么做在边缘端。我对今天宣布的这件事感到非常兴奋:T-Mobile、Cisco、Nvidia、Cerebras、ODC 将合作构建一整套堆栈。
AI 将进入各行各业:自动驾驶为例
AI 会进入所有行业,早期比较典型的是自动驾驶。自从我见到 AlexNet(我们在计算机视觉领域已耕耘许久),那一刻让我深受启发、热血沸腾,于是我们全力投入自驾车技术研发。到现在我们已经做了 10 多年。我们构建的技术几乎被每一家自动驾驶公司采用——他们可能只用我们的数据中心产品(例如 Tesla 在数据中心里用很多 NVIDIA GPU),或者像 Waymo、Woven Planet既在数据中心也在车端使用 NVIDIA 的计算机;也有极少数只在车端使用,但非常罕见。也有人把我们整个软件栈都用上了。
我们和汽车行业的合作方式是非常灵活的,看车企需求如何。我们提供三种计算机:训练计算机、仿真计算机、自动驾驶计算机,以及它们之上的整套软件栈、模型和算法。这和我们在前面其他行业所做的一样。
"今天,我非常高兴宣布,通用汽车(GM)已经选择与英伟达 (NVIDIA) 合作,打造他们未来的自动驾驶车队。自动驾驶车辆的时代已经到来。我们期待与 GM 一起在三个领域中运用 AI:第一,用于制造——他们可以革新生产方式;第二,用于企业级——他们可以彻底改变他们的工作模式、设计车辆和模拟车辆的方式;第三,用于车载——我们将为 GM 构建并部署 AI 基础设施。对此我非常兴奋。
关于汽车安全 (Automotive Safety)
我特别自豪的一点在于汽车安全领域,尽管它很少被关注。我们公司内部称之为 "Halos"。要实现安全,需要从芯片到系统,再到系统软件、算法以及方法论都整合到位。从多样性到确保多样性监控,再到透明性与可解释性,所有这些不同的理念都必须深度嵌入到系统及软件开发的每一个环节。我相信我们是世界上第一家让每一行代码都通过安全评估的公司——有 700 万行代码接受了安全评估。不仅是代码,我们的芯片、系统、系统软件以及算法都要进行第三方安全评估,对方会逐行审查代码,确认系统是在保证多样性、透明性和可解释性的前提下设计的。我们还在这个过程中提交了一千多份专利。在本届 GTC 中,我也非常鼓励你们去参加 "Halos Workshop",亲眼看看为了确保未来汽车既安全又能实现自动驾驶,需要整合多少不同的要素。我为此感到非常自豪,但它往往很少被讨论,所以这一次我就多花些时间来介绍一下,这就是 NVIDIA Halos。
自动驾驶示例:解决数据、训练、多样性
你们都见过自动驾驶汽车,比如 Waymo 的 Robo-Taxi 非常了不起。我们做了一个视频来展示我们所用的一些技术,如何解决数据、训练、多样性等问题,以便利用 AI 的神奇力量,去创造新的 AI。
NVIDIA 正通过 Omniverse 和 Cosmos 来加速自动驾驶系统的 AI 开发。Cosmos 的预测与推理功能,支持 ‘AI-first’ 的自动驾驶系统,从端到端实现可训练。它通过新的开发方法——模型蒸馏、闭环训练以及合成数据生成来完成。
首先,模型蒸馏将 Cosmos 的驾驶知识,转换为一个较小、更快的学生模型来在车内推理。教师 的策略模型会示范出最佳的行驶轨迹,而学生模型会通过多次迭代来学习,直到它的表现几乎与教师模型一样好。蒸馏过程为策略模型提供了初步的 ‘引导’,但复杂场景仍需进一步优化。这就需要闭环训练来微调策略模型。日志数据会被转换为 3D 场景,并使用 Omniverse 的物理级神经重建,让模型在模拟环境中进行闭环驾驶。然后在这些场景的不同变体中测试模型的轨迹生成能力。Cosmos 的行为评估器会对模型生成的驾驶行为进行打分,从而衡量其性能。新生成的场景及其评估结果,汇集成庞大的数据集,用于闭环训练,帮助自动驾驶系统更稳健地应对复杂场景。最后,3D 合成数据生成技术能让自动驾驶系统适应多样化环境。从日志数据中,Omniverse 通过融合地图和图像来构建高精度的四维驾驶环境,并生成真实世界的数字孪生,结合对每个像素的语义分割来辅助 Cosmos。Cosmos 会生成准确而多样化的场景,以扩大训练数据规模,进一步缩小仿真与现实的差距。Omniverse 和 Cosmos 让自动驾驶系统得以学习、适应并实现智能驾驶,为更安全的出行奠定基础。"
NVIDIA 是做这件事的完美人选,天呐,这几乎就是我们的宿命:用 AI 来再创造 AI。你在视频中看到的那些技术,和我们带给你的数字孪生世界的技术很像。
我们来谈谈数据中心 (Data Centers)
让我们谈谈数据中心吧。Blackwell 已经全面进入量产,这就是它的样子。实在是不可思议。不少人看到它会觉得:对我们来说,这是一种美的盛景,对吗?这怎么可能不美呢?
因为我们在计算机体系结构上实现了一个根本转变。三年前,我给你们看过一个版本,叫做 "Grace Hopper",那个系统叫 "Ranger"。Ranger 的体积大概是这个屏幕一半宽度——那是全球首个支持 NVLink 32 的系统。三年前我们展示 Ranger 时,它实在太大了,但方向完全正确。我们想解决的是 "scale up" 的问题。
分布式计算 (scale out) 是让很多计算机协同工作来解决一个巨大的问题;但我们仍然需要 "scale up",在扩展 (scale out) 之前先进行纵向扩展 (scale up)。二者都很重要,但你想先把单机/单系统的规模尽量扩大,然后再做分布式扩展。然而,"scale up" 十分艰难,没有什么捷径可走。你不可能像 Hadoop 那样,把一堆普通服务器用网络连起来,搞一个庞大的分布式存储计算。Hadoop 在过去确实带来了革命,让超大规模数据中心能够用通用硬件处理海量数据,但现在我们要解决的问题要复杂得多。如果继续用那种方式,只会过度消耗电力和能耗,深度学习也就不会出现。
因此我们必须先 "scale up"。我不会把它举起来,因为它有 70 磅重。它是我们上一代的系统架构 "HGX"。HGX 彻底革新了我们的计算方式,也革新了人工智能:它含有 8 块 GPU,每一块 GPU 就像手里这个(指向手中的 Blackwell GPU 模组)。这里面实际上是两个 Blackwell GPU 封装在一块芯片上。所以,一台 HGX 里有 8 块这样的东西。它们通过 "NVLink 8" 互联。而这上面还会连接一个 CPU 机箱(CPU shelf),里面有双路 CPU,用 PCIe 和 HGX 相连。然后再通过 InfiniBand 把很多这样的节点连起来,就形成了一台所谓的 "AI 超级计算机 (AI supercomputer)"。这就是过去我们的方法——通过这样的方式先做 "scale up",再做分布式扩展(scale out)。可我们还想把 "scale up" 做得更大。
我曾提到 Ranger:它把 HGX 再扩充了四倍,于是就有了 NVLink 32,只不过整机体积太大了。我们必须对 NVLink 及其拓扑进行重大革新,才能继续扩大规模。
做法是:把 NVLink 交换机 (switch) 拆分出来 过去,NVLink 交换机嵌在主板里,但我们现在要把它拆出来,放到机架中央。它是全球性能最强的交换机,使得所有 GPU 可以同时以全带宽互联。我们把这些交换机拆分出来,集中放在机架中央。有 18 个这样的交换机,分布在 9 个交换机托盘中。然后,计算节点就位于机架的四周相对于交换机而言,这样我们就能把这一切都做成 "完全液冷"。通过液冷,我们可以在一个机架里塞进所有这些计算节点。这就是整个行业的大转变:从集成式 NVLink 转向解耦式 NVLink,从风冷转向液冷,从每台计算机大约 6 万个元件变为每个机架 60 万个元件、功耗达 120 千瓦,全部采用液冷。结果就是——我们可以在一个机架里实现 1 exaFLOPS的计算能力。太不可思议了!
新的计算节点
这就是新的计算节点,相当于以前那台 8-GPU 的 HGX,再加上 CPU 的合体。现在它就能装进一个机架里。整机重量达 3000 磅,约有 5000 根线缆,长度差不多有两英里,以及 60 万个元件……大概相当于 20 辆汽车的零件数;这些都组合到一起成为一台超级计算机。
我们的目标就是这样:做彻底的 "scale up",现在的形态大致长这样。我们理想中想造一块芯片,上面集成约 130 万亿个晶体管,其中约有 20 万亿个专为计算所用。但从工艺上讲,这是不可能一次性实现的。所以我们通过 "解耦" 的方式,将 Grace、Blackwell 和 NVLink-72 拆分到多个机架上。结果就是,我们达成了极致的 "scale up"。这是有史以来最极端的 "scale up" 方案。它带来的运算量、内存带宽都达到了惊人的水平—— 570 TB/s,所有指标都以 T 计量,一切都是万亿级别。这台机器拥有 1 exaFLOPS(即 10^18 次浮点运算/秒)级别的运算能力。
推理 (Inference) 的极致挑战
我们之所以要做到这样极致的规模,是为了应对一项极端困难的任务。很多人原本以为这是一件很简单的事,但实际上它是终极级别的计算难题,这就是——推理 (inference)。原因很简单,推理就意味着"生成 token",而生成 token 的"工厂"(AI 工厂)能带来收益和利润,也可能带来损失。所以这座"工厂"必须以极高的效率和极大的性能来运行。因为工厂的效率会直接影响服务质量 (QoS)、收入以及盈利能力。
坐标轴有两个:
横轴 (x-axis) 是 "tokens per second"。我们在使用 ChatGPT 时,输入一个 prompt,然后输出的是一个个 token(标记),最终被映射成文本单词。一个英文单词可能对应多个 token,也有的 token 只代表字母组合如 "th",它可以在多种单词中出现,比如 "the"、"them"、"theory"、"theatrics" 等。
纵轴 (y-axis) 是 "响应延迟"(latency)或者说"响应速度"。我们已经了解到,如果想让 AI 更聪明,就需要生成更多 token——它可能需要进行推理 token、一致性检查 token、思考多种方案以选择最佳方案的 token,这些都属于"思考"过程。它也可能自我质疑,像我们人一样"一边想一边碎碎念"。生成的 token 越多,AI 表现就越聪明。但若 AI 回答问题太慢,用户就会失去耐心,不会再用它。这就像网络搜索一样,有个用户可接受的最大时延。
因此,这两个指标是相互冲突的:一方面,你想让 AI 为单个用户生成更多 token——也就是 "tokens per second" 越大越好,以实现更智能的回答;另一方面,你还想在同样的硬件里"服务更多的用户",提高整座"工厂"的吞吐量 (throughput),以获得更高收益。这时就不得不做 "batching",批量处理很多用户的请求。但一旦批处理,就会增加等待时间,这影响单个用户的响应速度。没有任何系统能在这两个维度上同时做到绝对完美,你理想地想要一个"曲线"尽可能在右上方覆盖更大面积——因为横纵乘积越大,代表你同时兼顾了响应速度和吞吐量。
要实现这样的目标,你得具备海量的FLOPS、极高的带宽和内存访问能力,以及适当的编程模型来把这些资源用起来。这正是我们这台机器所擅长的:更多 FLOPS、更大内存、更高带宽、最优架构、最好的能效比,以及能协调所有资源的软件栈。
举一个思维模型的小例子
下面这个演示会让你更直观地感受我说的内容。演示:"传统大型语言模型 (LLM) 可以捕捉到基础知识,而 ‘推理模型’则可以通过思考 Token 来解决更复杂的问题。
在这里,我们给了模型一个 prompt,要求根据一些条件来为婚宴安排座位,比如某些传统习俗、如何拍照更好看,以及哪些家人之间存在矛盾需要分开坐等。
传统的 LLM 只用不到 500 个 Token 就很快给出答案,但它在安排来宾座位时犯了错误。
而推理模型则使用了 8000 多个 Token 来思考,最终给出了正确答案。它甚至需要一个牧师来调解整个局面。"
就像大家都知道的,如果你要安排 300 人的婚宴座位,并让所有人都满意,这是只有 AI 或者"丈母娘"才能解决的问题(笑)。可你看到的例子里,R1 模型(指更高级的推理模型)要进行反复思考。传统 LLM 使用了 439 个 Token,一次性给出答案,确实很快,但错误百出,相当于是 439 个 Token 白费。而推理模型用了约 8600 个 Token,一步步推理、不断验证,最后才得出正确答案。它所需的计算量也大得多。
更深入的推理需要更复杂的并行与调度
在展示一些结果前,我还要解释点别的。你看 Blackwell 这种规模庞大的系统,它依赖 "MVLink 72" 架构,把所有 GPU 通过 NVLink 串起来,形成一个统一整体。但模型本身动辄拥有几千亿、几万亿参数,比如 R1 有 6800 亿参数,更大的下一代模型甚至可能达到数万亿参数。
我们要把这些数万亿参数分割后分发到一大堆 GPU 上,可能使用张量并行:把模型中的某一层拆分成多个 GPU 协同运行;也可能使用流水线并行:把模型的各层按顺序分配到不同 GPU;还可能采用专家并行:把不同的专家 分配到不同的 GPU。这三种并行方式(张量并行、流水线并行、专家并行)可以组合出无数种方案,而具体选择哪一种取决于模型、工作负载以及当时的环境。有时你要优化延迟(latency),有时要优化吞吐量,也可能在推理时使用各种批处理技巧。总之,这套 AI 工厂的软件操作系统极其复杂。
有一个关键观察点:当所有 GPU 都通过 NVLink 72 构成统一整体后,我们就能在内部灵活调度 "推理" 的不同阶段,而这些阶段需求不同。我们通常把推理分成两个阶段:
‘预填充’阶段(思考阶段):AI 不断从上下文中摄入信息(包括用户输入、提示、可能还会查询 PDF 或网站,甚至观看视频),把所有内容都整合进模型。这个过程计算量很大,但生成的 Token 并不多。
‘解码’阶段(解码阶段):AI 根据模型的所有参数和上下文来预测下一个 Token。由于语言模型每次只能预测一个 Token,要把整个模型(数万亿参数)从 HBM(高带宽存储器)读入,再生成一个 Token,然后再放回去作为输入,再来一次……持续很多次,才能输出完整结果。这对带宽以及 FLOPS)提出了极高要求。
举例来说,如果模型规模是好几万亿参数,意味着你每次解码,都要读取 TB 级的数据来输出一个 Token。而在那个演示里,推理模型输出了 8600 多个 Token,也就意味着对模型参数进行了 8600 多次的读取-计算-输出循环。这也解释了为何我们要用 NVLink:它能把所有 GPU 连接成一个巨大的逻辑 GPU,让我们在同一个地址空间里处理海量数据。
另外,当推理分为‘预填充’和‘解码’两大阶段时,我们可以在 NVLink 的统一架构下进行灵活调度:如果接下来大部分工作是思考或检索信息,就多分配 GPU 给 ‘预填充’;如果是成千上万用户一起聊天、需要大量输出 Token,则把更多 GPU 用于 ‘解码’。像我平时做研究时,会给 AI 一个超长的指令,让它去 94 个网站搜集资料,读完、总结,再给我写一篇报告。这个过程很耗 ‘预填充’ 计算。而当几百万人在和 ChatGPT 聊天时,又是 ‘解码’ 计算最繁重。
根据工作负载的不同,我们可能会决定在解码阶段分配更多的 GPU,或者在预填阶段分配更多的 GPU。这种动态分配的过程非常复杂。我刚刚描述了管线并行、张量并行、专家并行、飞行批处理、解耦推理工作负载管理,以及所谓的键值缓存——我得把它路由到正确的 GPU,还要管理所有存储层级。那部分软件复杂得令人难以置信。
所以,今天我们宣布了 NVIDIA Dynamo。NVIDIA Dynamo 会处理以上所有事情,它本质上就是一座"AI 工厂"的操作系统。过去,我们在数据中心里运行的操作系统可能是 VMware 之类的,我们会用它来编排整个企业级 IT 负载,事实上现在我们仍在这样做,我们是 VMware 的大用户。但未来,应用本身不再只是企业级 IT,而是"智能体"(agents);操作系统也不再像 VMware,而会类似于 Dynamo。它并不是跑在传统的数据中心上,而是跑在所谓的 "AI 工厂"之上。
我们之所以把它称为 Dynamo,是有原因的。正如你们所知,"Dynamo(发电机)"是引爆上一次工业革命的第一台仪器。那次工业革命是关于能源的:水进来,电出来,这太神奇了。你知道,水或者燃料进入后,变成蒸汽,再输出一种无形却极具价值的东西(电)。后来又花了大约 80 年才进化到交流电,但 Dynamo 正是这一切的开端。所以,我们决定把这套复杂到极致的软件命名为 NVIDIA Dynamo。它是开源的 ,我们非常高兴有许多合作伙伴与我们一起研究它。其中我最喜欢的合作伙伴之一就是 Perplexity,他们在这个领域做了非常具有革命性的工作,而且他们的创始人 Aran 人也很好。总之,这就是我们与 Perplexity 携手开发的东西,真的非常棒。
好,现在要等我们大规模建好这些基础设施,但与此同时,我们已经进行了大量深入的模拟。我们用超级计算机来模拟我们的超级计算机,这很合理。下面我要向你们展示我们所说的这一切带来的好处。请记住之前那张"工厂"图表:横轴 (x-axis) 表示 "用户体验的 tokens per second",纵轴 (y-axis) 表示 "整座工厂的 tokens per second 吞吐量"。你希望你的 AI 单体能够产出更多 token(让它更聪明),也希望整个工厂的产量也很高。下面我们来看一看 Hopper(架构)的情况。
这是 Hopper
Hopper 可以为每个用户大约产生 100 tokens/s。这里指的是一台包含 8 块 GPU 的系统,通过 InfiniBand 连接。为了公平起见,我们把它归一化到 "每兆瓦的 tokens per second"。也就是说,如果我们有一个 1 兆瓦的数据中心(其实在 AI 工厂里并不是很大的规模,但我们就取 1 兆瓦方便对比),它可以在单用户模式下做到 100 tokens/s,然后在这个点上(黄仁勋指着图),它能给你提供每秒 100,000 个 token;或者,如果你愿意等很久,让系统做极限"批处理",它可以达到 250 万 tokens/s。大家理解吗?好,如果在极端批处理场景下就是这样。
大家点点头,因为这部分可能有些烧脑。你们知道,每次 GTC 都有"入场门槛"——你们得接受一点数学的折磨。只有在 NVIDIA 大会上,你才会被数学折磨。
Hopper 可以产出 2.5 million tokens/s,这是在 1 兆瓦的功耗下实现的。那 250 万 tokens/s 怎么转化成经济效益呢?假如说 ChatGPT 是 10 美元 / 百万 token(只是举例),那么在极端批处理的情况下,这台"工厂"每秒就可能做到 250 万 tokens/s 乘以 10 美元 / 百万 tokens = 每秒 25 美元吗?或者每秒 250 美元?我们先别在意具体数字精确度,核心是:如果你的 AI 工厂能更快地产出 token,那么你的服务质量更好,也能赚到更多钱。但如果你为了让 AI 回答更聪明生产更多 token、更多推理步骤,你就需要更多计算资源,导致整体吞吐量下降。这是一种合理的平衡。上面的曲线正是我们努力要改善的目标。
我要再次强调,Hopper 本来就是目前最快的计算机,推动了很多革命性进展。那我们如何进一步提升它呢?首先,我们采用 Blackwell 架构和 NVLink 8(同一个 Blackwell 芯片),运算更强,晶体管更多,整体规模更大。然后我们还采用了一种新精度:不是简简单单的 4-bit 浮点,但用 4-bit 浮点做量化能在同样的运算里耗更少能量,从而做更多事。要知道,每个数据中心以后都会碰到"功率极限"。你能获得多少收入,很大程度上取决于你能使用多少能源。和很多行业类似,我们也进入了一个"能耗受限"的时代。因此,你必须要构建尽可能节能高效的计算架构。
接下来,我们再把规模扩大到 NVLink 72,大家应该能理解这个思路。看下面这张图对比一下:
NVLink 72 + FP4 + 我们全新的Dynamo
还有一个是没有 Dynamo 的配置
我们体系结构紧密结合,现在再加上 Dynamo,性能进一步拉升。Dynamo 对 Hopper 也会有帮助,但对 Blackwell 的帮助特别巨大。现在你会看到,我在图表中标出了两个闪亮的区域——那大概就是 "最大效率点 (max-Q)"。你在寻找在高吞吐与高智能之间的平衡,那些点就是你"工厂"最优化的工作区间。如果我们把那两个点连线对比,会发现 Blackwell 远远优于 Hopper。要记住,这里比较的是"相同功耗"(ISO Power),也就是所谓的终极摩尔定律。过去,摩尔定律在讲晶体管数量的提升,这里我们是在同样能耗的前提下做对比,结果居然是一代就提升 25 倍。那简直不可思议。
在图表上,你还能看到一个彩虹一样的曲线,那就是所有可能的配置点——我们称之为 Pareto 前沿。在那条前沿曲线下有无数种组合——工作拆分、分片策略、并行方式,各种可行配置。我们最终找到了最优解,也就是 Pareto 前沿 。根据曲线上的颜色,你可以看出在不同配置下的表现。这非常清楚地说明,你需要一个"可编程的"且"同构的"架构,因为负载在前沿曲线的不同部分有着截然不同的需求。
在曲线上某个顶部点,配置可能是"专家并行 8 + 批大小 3000 + 解聚关闭 + Dynamo 关闭";中间可能是"专家并行 64 + 26% 上下文 + 批大小 64 + Dynamo 开启",等等;最底部点又是另外的配置,比如"张量并行 16 + 专家并行 4 + 批大小 2 + 1% 上下文"……也就是说,整台计算机的配置会在这整个范围内变化。这就是为什么我们说需要一个可编程的、通用的架构。
对比:Hopper 与 Blackwell 在"推理思维模型"中的性能
接着我们来看这个演示:在输入序列长度为 1000 token、输出长度为 2000 token 的测试场景中,Blackwell 性能是 Hopper 的 40 倍。哇,简直不可思议。我之前说过一句话:当 Blackwell 大规模出货后,你送 Hopper 别人都不会要。这就是我指的意思,这也很合理。当然,如果你现在还打算买 Hopper 也没关系,但是我是公司最大的"营收终结者"(,我的销售团队可能会想:"别这样说啊!"但是你们懂的,当技术以如此惊人的速度迭代,如果你确实在建一个"AI 工厂",就应该投资在对的产品上。把它放到一个更大的视角看就明白了。
举个例子,这是一座 100 兆瓦 的"AI 工厂"。
如果用 Hopper,需要 45,000 颗 GPU DIE、1400 个机架,能产出大约 3 亿 token/s。
如果用 Blackwell,那就需要……呃……(黄仁勋做出手势)好像就只要 8000 颗 GPU DIE,就能达到同样产量。(现场笑声)你可能想:"这听上去我用不了那么多 GPU 了?" 我们并不是想卖得更少,而是想告诉你,这是一个更优解。"买得越多省得越多",何况现在是"买得越多,赚得越多"嘛(笑)。
总之,现在的一切都围绕"AI 工厂"这个概念来思考。我们一直谈芯片,但实际上要先想好怎么做 "scale up",最后才会决定你买多少芯片。我现在想让你看看一座实际 AI 工厂的样子,但它实在太复杂了——仅仅一个机架就有 60 万个元件、重达 3000 磅。如果你要连上几十个甚至上百个这样的机架,就更是庞然大物。所以我们开始在 Omniverse 里做"数据中心数字孪生 (digital twin of a data center)",也就是先构建一座虚拟的 AI 工厂,再去建实体的。
NVIDIA 的路线图(Roadmap)
现在我得加快节奏了,因为我要跟你们讲的东西实在太多。如果我说得太快,不是因为我不关心你们,而是信息量确实很大(笑)。
先说一下我们的路线图 (roadmap)。现在我们已经全面量产 Blackwell,世界各地的计算机制造商都在大规模出货这种令人惊艳的机器。我对此深感欣慰并心怀感激——大家为过渡到这套新架构都付出了巨大努力。然后在今年下半年,我们会平稳过渡到升级版,也就是 Blackwell Ultra + NVLink 72。它具备原先 1.5 倍的 FLOPs,拥有新的 attention 指令,内存也提升了 1.5 倍,非常有用,比如放 KV cache;网络带宽也扩大了 2 倍左右。所以,基于相同的架构,我们会顺利推出这个升级版本,称之为 Blackwell Ultra,预计在今年下半年。
为什么我们要在这个场合宣布这样的产品?一般情况下,别的公司宣布时大家可能会觉得"好啊,下一步是什么?"。事实上,这正是我们希望你们的反应。原因在于:我们现在要建的是 AI 工厂,需要多年的规划。这可不是买台笔记本电脑那么简单,也不是一笔随心所欲的支出,而是必须经过土地、电力、资金、工程团队等各方面的长远计划。所以我们必须给你们一个 2~3 年的预告,而不是等到某个月份突然说"嘿,下个月又有一个超棒的新系统"。我会举个例子让你们看为什么要这样做。
再往后一年,我们会推出以著名天文学家命名的新系统,她的名字是 Vera Rubin。她发现了"暗物质",对,就是 Vera Rubin。她非常了不起。她这套新平台里,CPU 也变成新的,比 Grace 性能提高两倍、内存更多、带宽更大,但功耗只增加一点点(可能是 50 瓦的 CPU),真是厉害。新的 GPU 代号是 CX9,还有新的智能网卡 SmartNIC、NVLink 6,以及新的内存(比如 HBM4)。一切都是全新的,只保留现有的机箱和底层基础设施,这样我们在一个方向上冒险升级时,不会同时冒险太多层面。我们称之为 Vera Rubin + NVLink 144,将在 2026 年下半年问世。
关于 Blackwell 的命名变更
需要做个小小的澄清:Blackwell 芯片实际上包含两个 GPU DIE,但我们过去把它当做"一块 GPU"来称呼,这在 NVLink 命名上造成了混乱。今后,我说 "NVLink 144" 指的是连接 144 个 GPU DIE——它们可能封装在一起,也可能分开封装。总之,今后每个 GPU DIE 就叫一个 GPU,所以当我们说 "Rubin + NVLink 144",就是可以连接 144 块 GPU DIE。将来具体是怎么封装的,会视情况而定。
有了 Vera Rubin + NVLink 144,接下来又为第二年(也就是再往后一年)做好了铺垫,称之为 Rubin Ultra。你们应该惊呼一下(笑)。对,这就是 Vera Rubin Ultra,预计在 2027 年下半年。这是 NVLink 576 极致扩展。每个机架 600kW,包含 250 万个元件——哦不,250 万组件。当然还会有更多 GPU,总之各项指标又提升一个数量级。14 倍更多的 FLOPs,就是 15 exaFLOPs,而现在 Blackwell 的规模只有 1 exaFLOPS。我之前提到过可以做 15 exaFLOPs 的"scale-up"。内存带宽达到 4.6 PB/s(4600 TB/s),这还是单机架内部的统一带宽,并不是整体聚合带宽 的概念。当然还会有全新的 NVLink 交换芯片和 CX9 等一系列新组件。
请注意,这里用了 16 颗 GPU DIE 打包封装在一个封装中,极大规模的 NVLink。我给你们比对一下。比如说,这就是你们现在正在量产、部署的 Grace Blackwell看上去像个小板子,对吗?而 Rubin 比它大很多。我们是等比例放置,让你们感受一下它的体积差别。
这就是为什么我们总是强调——在开始做大规模分布式(scale out)之前,你先得做极致的 "scale up"。然后我们再用一些让你惊艳的技术进行分布式扩展。
性能演进:Hopper→Blackwell→Rubin
现在我们可以看看算力(scale-up FLOPs)的进化:
Hopper = 1×
Blackwell = 68×
Rubin = 900×
如果你把它和功率结合起来,也就是我前面说的"在可接受的能耗下,最大化 FLOPs×带宽"。你会发现 Rubin 将带来更低的成本、更高的效率。所以,这就是 NVIDIA 未来几年的路线图,大约一年一次的迭代节奏,就像时钟滴答一样稳定。
横向扩展(Scale Out)
讲完纵向扩展(scale up)的路,我们再来看横向扩展(scale out)要怎么做。我们之前介绍过,MVLink 负责纵向扩展,而 InfiniBand 与 Spectrum X 负责横向扩展。大家都知道我们进入以太网领域,因为我们想让以太网拥有跟 InfiniBand 类似的性能特性,比如阻塞控制、超低延迟,以及把我们计算结构的软件优势带进去,于是就有了 Spectrum X。现在的表现非常出色,比如我们用 Spectrum X 构建了 "Colossus",那是全球最大的单体 GPU 集群之一,表现非常好。Spectrum X 可以说是大获成功。
我对另一个方向也很兴奋:最大的企业网络厂商将把 Spectrum X 整合进他们的产品线,帮助全球的企业"AI 化"。我们现在用的是 CX8、CX7,马上要有 CX8、CX9。随着将来要到 Vera Rubin 的时代,我们希望能扩展到成千上万、甚至几十万块 GPU DIE。但是,如果要把几十万块 GPU DIE 做成大规模横向扩展,数据中心大到体育场大小,那么机架之间就需要远距离连线,不再能完全使用铜缆。铜缆只适合在机架内或 1~2 米以内,这样能保持高可靠、低成本、能效高;但在机房更大范围内,我们就需要"硅光 "技术。硅光长久以来的挑战是收发模块 功耗太大,需要把电信号转换为光信号,需要串行器/解串器,以及好几级转换,每一个步骤都在消耗能源。
NVIDIA 首款 CPO 硅光系统
让我们展示一下这个东西。首先,我们宣布了英伟达首个"共封装硅光 方案",世界上首个 1.6 Tb/s 的 CPO(co-packaged optics)。它基于 微环谐振调制器 (Micro Ring Resonator Modulator, MRM) 技术,这是我们在 TSMC 工艺上与众多技术伙伴合作多年的成果。它非常疯狂,极具创新。
之所以选用 MRM(微环谐振调制器),是因为它在功耗密度和能效方面都优于现有的马赫-曾德尔调制器 ,后者目前主要用于远距离电信或数据中心间通信。之前,在数据中心互联或城域/长途光纤里,MoZ(马赫-曾德尔)足够用,因为对带宽和密度的要求相对没那么高。但如今随着我们要在机架间、机房内都高密度部署光模块,这就需要更高的集成度与更低功耗,而 MRM 更适合这种规模化的场景。好吧,这就是要让‘推理模式’上线的时刻了。要把这些线整理好其实没那么容易,它们又细又绕。好了,让我们看看这个家伙(展示某个光学收发器)。
你看,这一块功耗是 30 瓦。你要记住,30 瓦。如果你大批量采购,每个可能要 1000 美元。这里有一个插头,这边(指一端)是电连接,那边(指另一端)是光学连接。所以,光纤会从黄色这边进来;你把它插到交换机上,这一头是电接口,里面包含了收发器、激光器,采用了被称为"马赫-曾德尔 (Mach-Zehnder)"的技术,十分先进。我们用它把 GPU 连接到交换机,再连接到下一级交换机,然后再下一层交换机,最终到另一块 GPU。例如,如果我们有 10 万块 GPU,那么就要有 10 万个这种光纤接口;然后再加上……呃,还要另一端从交换机到交换机,也有 10 万个。最后去连接另一端 Nick(网络接口卡)。如果我们有 25 万块 GPU,就得再加一级交换机。因此,每块 GPU(25 万块 GPU 时)都会拥有 6 个收发器端口,也就是 6 个这样的插头。这样的话,每块 GPU 光是这些收发器就要消耗 180 瓦(30 瓦×6),每块 GPU 还要 6000 美元的成本(1000 美元×6)。
所以,问题来了:我们如何把 GPU 的规模扩展到上百万块?如果我们有 100 万块 GPU,每块都有 6 个收发器,那就等于 600 万个收发器,总耗电是 600 万×30 瓦 = 1.8×10^8 瓦,也就是 180 兆瓦 (megawatt) 纯粹用来"搬运信号",并没有做任何计算。正如我之前说的,能源是我们最重要的资源,一切最终都和能耗挂钩。若这些收发器吃掉 180 兆瓦,那就意味着我们的客户(或我们自己的)数据中心能够用于实际计算(从而创造收益)的电力减少了 180 兆瓦。
于是,我们必须想办法解决这个问题。这就是我们所做的惊人的发明:我们开发了全球首款采用微环谐振调制器 (MRM, Micro Ring Resonator Modulator) 的硅光技术,它看起来是这样的(展示示意图)。你会看到有一个小小的波导,当光在这个环形结构里共振时,它会控制波导的反射率,通过吸收或者透过来改变光的强度,从而把连续激光束转换成 0 和 1,这就是其神奇之处。然后,光子集成芯片与电子集成芯片 叠加在一起,再加上大量的微透镜,以及所谓的光纤阵列 等多层技术——全部都是在台积电 (TSMC) 采用他们称作 COUPE 的制程里制造,并用 3D CoWoS(或 3D CoP 类封装技术)来封装。我们携手众多技术伙伴一起研发了很多年,才打造出如此不可思议的器件。让我们看段视频来了解下这项技术的奇迹吧。
然后,这些器件会被做成交换机,比如我们的 InfiniBand 交换机。硅芯片的工作状况非常好。我们会在今年下半年(指 2025 下半年)出货这款硅光交换机;到明年下半年(指 2026 下半年)会出货整套 Spectrum X 解决方案。之所以能成功,是因为我们当初选择了 MRM,也承担了过去五年里的巨大技术风险,提交了数百项专利,还将这些专利授权给我们的合作伙伴来共同生产。如今,我们就有能力把硅光和共封装技术集成在一起,直接把光纤插进交换机里,而无需传统收发器模块。这样,每台交换机就能做到 512 个端口,这在其他方式下几乎不可能实现。
因此,这为我们扩展到十几万块乃至上百万块 GPU 奠定了基础。你们可以想象一下,在一个数据中心里,我们能节省几十兆瓦的能耗。比如说,你可以省下 60 兆瓦,这相当于 10 个 Rubin Ultra 机架(每个 6 兆瓦),或者更多(如果一个 Rubin Ultra 机架是 600kW,则 60 兆瓦就是 100 个机架的电力)。我们就能把这些电能重新投入到 Rubin 超级计算机本身。
我们的年度节奏:一次一年
这就是我们的完整路线图:每年一次,每年都会带来一次新架构,两年一个大的产品线迭代,每次都实现数量级的提升。我们会分步承担硅片、网络、机箱等方面的风险,从而推动整个行业不断前进,朝着这些不可思议的技术迈进。
至于名字,"Vera Rubin" 用于下一代架构,向发现暗物质的 Vera Rubin 致敬。她非常了不起,我还要感谢她的孙子孙女们也在现场,见证我们对她的崇高敬意。再下一代,我们会以 "Feynman" 来命名,NVIDIA 的路线图 就是这样。
谈谈企业计算
非常重要的一点是:要把 AI 真正带给全球企业,我们需要回到英伟达的另一个方向。
让我们先回顾一下:AI 与机器学习从根本上重塑了整个计算堆栈——处理器变了、操作系统变了、应用程序也变了,编排方式也不同,运行方式也不同。举个例子,过去我们检索数据是精确检索并读取自己想要的内容;将来,我们可能会像用 Perplexity 那样,直接问它一个问题,让 AI 帮你找答案。这也是未来企业 IT 的模式:我们会有很多"AI 助手 (AI agents)",它们相当于我们的数字化劳动力。全世界有 10 亿知识工作者,而将来可能会有 100 亿数字工作者与我们并肩协作。全球约有 3000 万软件工程师,我敢肯定其中 100% 会在未来用 AI 辅助进行开发;到今年年底,我们英伟达自己所有的软件工程师也都将有 AI 助手。所以 AI 助手会无处不在,它们在企业里运行的方式也与现在完全不同,我们需要为其打造新的计算机形态。
看看这个:这就是未来 PC 的样子,拥有 20 petaFLOPs 的算力,72 核 CPU,芯片间接口、HBM 内存……还有一些 PCIe 插槽方便你插 GeForce 显卡(笑)。这款我们称作 DGX Station或 DGX Spark;OEM 厂商比如 HP、Dell、Lenovo、华硕 等都会推出这种产品,面向全球的数据科学家与研究人员。这是进入 AI 时代后,计算机应有的样子;未来的计算就会在这种机器上运行。我们也提供一整条产品线,从迷你机型到工作站再到服务器级、超级计算级,都会交由各大合作伙伴推出。
同时,我们还会彻底革新存储。回想一下,计算有三大支柱:计算、网络,再就是存储。既然网络升级成了 Spectrum X,存储也要改头换面:从过去的"检索式"存储系统转向"语义式"存储系统,要能在后台不断地对数据进行"embedding",将其转换成可用的知识。当你需要数据时,不再是"检索数据",而是直接对数据发问,让 AI 帮你找到答案。Aaron 和 Box 公司就把一个"超智能存储系统"放在了云上与我们合作,我很希望现场能有个视频,但我们没有。不过,未来每家企业都会拥有类似的"AI 存储"。这将是企业存储的未来。
我们正在与存储领域的所有主要厂商——如 DDN、Dell、HPE、Hitachi、IBM、NetApp、Pure Storage、VAST、WDC——携手,把 GPU 加速(GPU-accelerated)第一次带到他们的存储系统里。那将是第一次你的存储系统也内置 GPU 加速。
有人觉得我幻灯片不够多,所以 Michael 给了我这一张。尽管我本来就有很多 PPT,但这张确实不错:它一张图就展示了 Dell 将如何提供一系列英伟达企业级 IT + AI 基础设施系统,以及在其上运行的所有软件。你可以看到,我们正在推动全球企业 IT 的大变革。
最后说说"机器人 (Robotics)"
我们来聊一下机器人吧。现在真的是机器人的时代了。机器人能与物理世界交互,执行纯数字世界无法实现的工作。众所周知,劳动力严重短缺。据估计,到本世纪 20 年代末,全球会短缺至少 5000 万名工人。我们很乐意给他们每人 5 万美元的年薪,但现实里并没有这么多劳动力,所以有可能要给"机器人"付 5 万美元/年的租金或使用费(笑)。这将是一个非常庞大的市场。
所有在移动的东西都将变得自主化。全球有成千上万家工厂、数以亿计的摄像头、仓库、无人车辆,汽车本身也是一个机器人。现在我们还在研发通用机器人。我给你们放段视频,展示我们的做法。
"物理 AI 和机器人正在飞速发展,可能会成为规模最大的产业。一切的核心挑战跟之前类似:数据从哪来、模型架构是什么、以及如何做扩展(scaling)。在机器人领域,我们同样需要能大量生成或获取数据,需要强大的计算来训练模型,同时还得有能让 AI 越训越强的扩展性。英伟达为此打造了‘Omniverse’这一物理 AI 的‘操作系统 (OS)’,已谈了很多年。今天再补充两项新技术:
1、‘Cosmos’——把 Omniverse 与一种能够理解物理世界的生成式模型结合起来。Omniverse 控制场景中的机器人和环境,Cosmos 则能生成无穷无尽的虚拟环境。你可以看到,我们在 Omniverse 里通过示意颜色来精确控制场景,而 Cosmos 不断变化虚拟世界,让数据既能‘有锚点’又能‘无限丰富’。
2、正如我们之前提到的,大型语言模型能快速提升的关键在于‘可验证的强化学习 )’。机器人世界里这种‘可验证的奖励’就来自物理定律。所以我们需要一款极其强大的物理引擎。以往的物理引擎可能偏向大型机械或游戏,但要训练机器人的精细操作、触觉反馈、动力学控制,就需要 GPU 加速、超实时 (super real-time) 模拟,还要与机器人开发者常用的‘Mujoco’或类似框架无缝整合。因此,我们宣布一件非常特别的事:由三家企业——DeepMind、Disney Research 和 Nvidia——共同合作,推出一个叫做 Newton 的东西。让我们看看 Newton 吧。"
再发布一个好消息:Groot N1 开源
正如我所说,我们机器人相关的进展巨大。今天宣布,Groot N1 现在是开源的!
我想感谢各位来到 GTC。让我们做个总结吧:
1、Blackwell 已全面量产,需求极其旺盛,原因也很明显——AI 迎来一个拐点,尤其是"推理"方面对算力需求激增,并且要训练会推理、能自主规划的"agentic AI"。
2、Blackwell + NVLink 72 + Dynamo 提供的 AI 工厂性能比 Hopper 提高了 40 倍。而在未来十年,推理 (inference) 将成为最重要的负载之一,我们会把 AI 规模继续扩大。
3、我们公布了年度迭代的产品路线图,好让你们能规划自己的 AI 基础设施。
4、我们构建了三条 AI 基础设施线:一条给云,一条给企业,一条给机器人。
参考资料:https://www.youtube.com/watch?v=xZBxDHu_do8&t=7611s&ab_channel=BloombergTelevision
登录后才可以发布评论哦
打开小程序可以发布评论哦