来源:雷科技 AI 硬件组 | 编辑:TSknight
2025 年 3 月 19 日,一场属于 AI 的盛宴在美国的圣何塞拉开序幕,随着 AI 在各个领域的普及与快速发展,今年的 GTC 大会关注度明显更高,以至于英伟达 CEO 黄仁勋在开场致辞里直接将大会形容为「AI 界的超级碗」(超级碗是美国最受欢迎的体育赛事,其关注度甚至高于 NBA 总决赛)。
下面就让我们直入主题,看看此次 GTC 2025 最值得关注的内容。
与往年一样,今年的英伟达同样带来了全新的计算芯片—— Blackwell Ultra 和 " 期货 " 芯片 Rubin。其中,Blackwell Ultra 实际上是 Blackwell 的升级版,已经开始接受预订,在性能与带宽等方面对比前代都有所升级,并且适配最新的 NVLink 技术,拥有更高的带宽和速度。
图源:英伟达
虽然在大会上并没有公布 GB300 的价格,但是参考 GB200 的售价来看,新芯片的价格显然不会便宜,而且英伟达貌似暂时并不打算单独出售显卡,目前还是以机柜的方式进行整套销售,不过和昂贵的芯片相比,机柜其他配件的价格倒也显得 " 微不足道 " 了。
从英伟达公布的参数来看,Blackwell Ultra 的显存从 192GB 升级为 288GB,而在 NVL72 状态下(72 颗芯片互联)AI 性能是 GB200 的 1.5 倍。老实说这个数据远不如从 Hopper 架构跳到 Blackwell 架构时惊艳,而且官方给出的数据里对整体性能提升也是 " 语焉不详 ",只是着重提到 FP4 推理性能提高 50%。
而且从官网给出的数据对比来看,FP4 推理性能的提升与 FP64 和 INT8 的推理性能被砍掉有关,前者从 296 TFLOPS 直接掉到 10 TFLOPS,后者则是从 72 PFLOPS 掉到仅剩 2 PFLOPS,省下来的算力资源都被塞到了 FP4 里。
图源:英伟达
显然,高精度的推理和训练已经逐渐被抛弃,以 FP8、FP4 为主的低精度训练正在成为主流。其实这里面也有不少 DeepSeek 的功劳,前段时间开源的一系列技术中就包括 " 如何在 FP8 低精度下保证训练和推理命中率 " 的相关方案,也正是靠着这套方案,DeepSeek 的训练成本和推理成本才会远低于其他 AI 企业。
不过目前来看,通过降低精度来提高算力效率的路也差不多走到头了,FP4 再往下的精度就很难确保效率和成本都满足需求了,为了纠正错误所需要付出的资源可能超过在更高精度下训练的成本。
虽然算力提升幅度存疑,但是显存的增长却是实打实的,特别是推理模型大行其道的当下,AI 推理和训练对带宽的要求远比以前更高。所以 GB300 的销量还是很可观的,据黄仁勋透露,亚马逊、 微软等企业已经提前下了 360 万颗 Blackwell Ultra 芯片的订单,将进一步拓展他们位于全球各地的 AI 算力中心。
聊完 Blackwell Ultra,再来看看 " 期货 " 芯片 Rubin,这才是英伟达真正的下一代芯片,单芯片的 FP4 性能提升到 25 PFLOPS,而完整的 Rubin 是双芯片设计,所以实际 FP4 性能高达 50 PFLOPS,是 Blackwell Ultra 的三倍以上。此外,显存也升级为 HBM4,虽然容量仍然是 288GB,但是带宽从 8TB/s 升级到 13TB/s,在 NVLink 状态下吞吐量高达 260TB/s,是前代的两倍。
图源:英伟达
而且 Rubin 支持 NVL144,也就是单个机柜最高可串联 144 颗芯片,提供高达 3.6EF 的 FP4 算力或 1.2 EF 的 FP8 算力。作为对比,NVL72 的 Blackwell Ultra 只有 1.1EF 的 FP4 算力,FP8 算力更是只有 0.36 EF,差距非常明显。
除了 Rubin 外,英伟达这次也直接把 Rubin Ultra 一起展示了,最高支持 NVL576,拥有 15 EF 的 FP4 算力和 5EF 的 FP8 算力,性能是 GB300 NVL72 的 14 倍,单组芯片配备 1TB 的 HBM4e 内存,显存带宽高达 4.6PB/s,NVLink 7 将为其提供高达 1.5PB/s 的带宽速度。
图源:英伟达
虽然数据看起来非常吓人,不过单从算力来看基本上没有多少增长,因为 Rubin Ultra 就是两个 Rubin 组合在一起而已(Blackwell 的 GB200 也是如此),所以最主要的升级还是新的 NVLink 和显存。
虽然 Rubin 架构的参数很诱人,但是最快也要等到 2026 年下半年才会开始出货,而 Rubin Ultra 更是要等到 2027 年下半年,你可以理解为英伟达直接把未来两年的更新计划提前透了底,估计也是为了提振市场对英伟达的信心。
至于 2028 年才会上市的 "Feynman",就单纯只有一个名字了,更多的信息并没有公开,只能说英伟达是懂得画饼的。总体来说,Blackwell Ultra 虽然不如此前猜测的那样提升巨大,但是也更契合当下的 AI 模型训练和推理需求,随着 Blackwell Ultra 的陆续普及,全球算力规模估计会迎来新一轮的暴涨。
虽然新芯片的发布关注度很高,不过最有意思的还是老黄的新金句:" 买得越多、赚得越多 ",普罗大众是否认可这个观点尚且不谈,反正四大云服务器运营商是认可了,这也是英伟达 " 卖得越多,赚得越多 "。
这让我不禁想起前段时间随着 DeepSeek 的爆火,一度有着很高讨论度的话题 "AI 不再需要英伟达显卡 ",现在看来,市场给出了这个问题的答案:"AI 或许不再独钟于英伟达显卡,但是我们现在需要更多的算力了。"而按下这场算力竞赛加速键的企业,或许正是 DeepSeek。
在今年的演讲里,DeepSeek 的出场率相当高,直接取代了去年的主角 ChatGPT,黄仁勋也用 DeepSeek 来解释为什么 AI 算力需求不仅没有下降,反而在增长。作为范例与 DeepSeek 对比的是 LLama 3,一个传统的 AI 大模型,在回答同一个问题时,LLama 只用了不到 500 Token 就输出了回答,而 DeepSeek 则是用了高达 8559 Token 来输出答案。
图源:英伟达
结果是显而易见的,LLama 给出了错误答案,而 DeepSeek 则答对了,为了避免大家觉得 DeepSeek-R1 用 671B 的参数量 " 欺负 " 只有 70B 参数量的 LLama,演示视频还贴心地备注 " 活跃参数 37B" 的字样。这也是 DeepSeek-R1 这类稀疏型 AI 大模型的特点,虽然参数量庞大,但是每次实际调用的参数量并不算多,甚至会比传统 AI 大模型更少。
不过,即使活跃参数量仅为 37B,DeepSeek 所使用的 Token 量也远超 LLama,因为 DeepSeek 是推理模型,在输出实际答案前会先进行多轮思考,并且在得到结果后会主动进行验证,只有确定答案符合标准后才进行实际的回答输出。
随着 DeepSeek 将自己的优化过程和深度学习方案开源,许多 AI 模型都开始引入类似的长思考链步骤,虽然让回答的质量比以前高了很多,但是对算力的需求也与日俱增,如果不是 DeepSeek 公布了全套的优化方案,恐怕大多数 AI 公司的亏损要翻一倍不止。
以目前的形势来看,推理模型淘汰传统 AI 模型已经没有悬念了,这也意味着即使后续的 AI 模型及推理过程优化更进一步,想要满足更大参数规模和更复杂的推理所需要的算力资源仍然是个天文数字。而在算力性能上,英伟达仍然是断崖式领先的存在,即使 DeepSeek 证明了绕过英伟达显卡也能确保推理效率,但是英伟达还是多数厂商的首选。
图源:英伟达
这也是为什么在 DeepSeek 爆火导致英伟达股价暴跌后,黄仁勋接受采访时却表示 DeepSeek 其实是利好英伟达,并非 " 死鸭子嘴硬 ",而是看到了 DeepSeek 所采用的稀疏架构推理模型方案背后对算力的恐怖需求。
黄仁勋认为,长思维链所带来的效果显而易见,没有 AI 企业可以拒绝这样的诱惑。但是随着 AI 模型的参数量进一步增长,当这个数字达到万亿、数万亿后,算力效率的重要性将更加凸显。因为算力效率直接决定 Token 输出速度,如果你的 Token 输出速度太慢,那么用户可能要半天才能得到自己想要的答案,他们会抱怨并直接转投其他 AI 的怀抱。
想要高效且高质量的为用户提供 AI 服务,那么只有堆高算力规模,并且用上最新的英伟达芯片行业技术(黄仁勋的原话),才能让企业在竞争里领先对手且吸引用户加入。而且,随着算力规模的上升,效率增长的同时也会促使成本下降,让企业能够从每一次用户访问中获得更高的利润,也就是黄仁勋所说的" 买得越多,赚得越多 "。
图源:英伟达
为了帮助企业实现这个目标,英伟达还发布了 Dynamo,并将其称为 "AI 工厂的操作系统 ",借助这个系统的整合优化可以将计算机的 Token 生成效率成倍提高,解决 Token 生成速度不足的问题。
英伟达的终极野望:
要做 AI 的超级工厂?
在英伟达的设想中,未来的计算机将不再是软件的运行基础,Token 将成为软件及一切服务的根基,而计算机则变成生产 Token 的工厂,也就是 "AI 工厂 ",能够以流水线的方式生产 AI 模型。
简单来说,AI 工厂可以根据用户输入的需求,全自动化的训练一个专属 AI 模型,这个 AI 模型或许参数规模不大,但是却针对你的需求进行特化训练,其效果丝毫不比大参数量的通用模型差,也就是做到 AI 模型的" 千人千面 "。
图源:英伟达
不得不说,这是一个非常诱人的未来,不过背后所需要的 AI 基础设施覆盖率和算力规模也是相当的恐怖,恐怕需要全世界全行业都深度参与其中才能搭建出整套系统的雏形。
或许正是考虑到这一点,英伟达宣布将把 Dynamo 系统开源,支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM 等多种框架,方便各个企业针对自己的 AI 工厂进行优化和调整。
自从 DeepSeek 掀开 AI 领域的开源浪潮后,越来越多的 AI 企业也意识到了开源的重要性,并加入开源阵营中,DeepSeek 掀起的浪潮注定不会停歇,这场 AI 革命的序幕才刚刚拉开。
回顾英伟达的 GTC 2025 大会,你会发现硬件不再是唯一的核心内容,英伟达正在着手构建一个全新的智能生态,在这个生态里算力是一切的基础,只要大家都认可并共同致力于维护这个生态,那么在算力性能上具有优势的英伟达自然也就高枕无忧了。
3 月 20 日 -3 月 23 日,AWE(中国家电及消费电子博览会) 2025 盛大开幕,海信、TCL、长虹、雷鸟、添可、追觅、云鲸、小熊、萤石、韶音、海尔、三翼鸟、九阳、科沃斯、万和、索尼、三星、LG 等巨头重磅参展,DeepSeek 掀起的 AI 工业化浪潮如何影响家电成重要看点,"AI 家电 " 风起云涌,雷科技 AWE 2025 报道团正在全程追踪报道,敬请关注。
End
登录后才可以发布评论哦
打开小程序可以发布评论哦