每日经济新闻 09-08
多家头部公司老总详解算力“军备竞赛”规模之争:年内上线超百万卡集群OR三年内不太可能破30万卡
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

算力的 " 军备竞赛 " 正日趋白热化。

特斯拉、微软等巨头正把 GPU(图形处理器)堆成山,其中马斯克旗下的人工智能公司 xAI 据称已经搭建起 20 万卡集群。

不久前,OpenAI 联合创始人、首席执行官奥特曼在推特上预告,公司到年底前将上线超过 100 万张 GPU,更直言希望在这个数量规模上再扩容 100 倍。随后,马斯克扬言,5 年内 xAI 要部署到 5000 万张 H100 GPU 的等效算力。

对此,有业内人士对《每日经济新闻》记者(以下简称每经记者)表示,目前国内已出现两万 / 三万卡的国产智算集群,未来几年,模型训练对万卡到十万卡级别仍有需求,但当前的大模型训练还不需要单个智算集群达到数十 / 百万卡规模。该业内人士断言 "3 年内单集群不太可能到 30 万卡 "。

一边是美国企业号称年底前要上线 100 万卡集群,一边是国内 20 万卡、30 万卡集群尚无用武之地,这背后是何原因?" 无限堆卡 " 这条路会否一直走下去?十万卡、百万卡乃至更大规模的算力集群是否真的需要?

围绕这一系列焦点问题,每经记者深入采访了多位头部企业的老总和业内专家,试图理出一个清晰的脉络。

追 " 卡 " 之因:规模定律下的 " 军备竞赛 "

所谓万卡集群,就是由超过 1 万张加速卡 [ 如 GPU、TPU(张量处理器)或专用 AI 芯片 ] 组成的高性能计算系统。

2025 中国算力大会上展出的加速卡 每经记者 张蕊 摄

摩尔线程 AI Infra 总监陈志对每经记者表示,算力是实实在在的,万卡解决的是训练本身的问题——训练大模型需要巨量的算力,单卡解决不了。

博大数据 CEO 张永健对每经记者表示,Scaling Law(规模定律)的驱动是追求万卡甚至十万卡集群最核心的技术原因。在 AI 领域,尤其是大语言模型,已经反复验证了一个规律:模型的性能与模型参数量、训练数据量以及投⼊的计算量三个因素成正比。要训练出更强大、具备涌现能力的千亿甚至万亿参数模型,就必须投入海量的计算资源。

他举例说,从 GPT-3 到 GPT-4 的性能飞跃,背后是计算量的指数级增长。而万卡集群正是实现这种计算量级投入的物理载体。

多位受访者坦言,大模型领域的竞争如同 " 军备竞赛 "。谁能更快地训练出更优的模型,谁就能抢占市场先机,定义技术标准,构建生态壁垒。

张永健说,⼀个原本需要 6 个月的训练任务,如果通过万卡集群能缩短到 1 个月甚至更短时间,这种迭代速度带来的优势是颠覆性的。

中国电信研究院战略发展研究所所长饶少阳对每经记者表示,现在大模型更多从 " 预训练 " 转向 " 后训练 ",并大量采用强化学习、思维链等方式,带动算力需求倍速增长。另外,除了模型训练外还有大量推理需求,比如我们平时用豆包、DeepSeek 等,这同样需要消耗大量算力。随着模型推理需求爆发、智能体规模落地,未来推理将成为智算需求增长的主力,训练算力也将同步增长。

据张永健介绍,目前需要万卡集群服务的用户主要集中在头部互联网与云计算公司、⾦融科技巨头、自动驾驶企业以及生物制药与生命科学研究机构等几个领域。

他举例说,类似生物制药和生命科学领域进行蛋白质结构预测、药物分子筛选等研究,这些复杂的科学计算任务借助大算力能显著加速研发进程。

饶少阳表示,目前国内已出现两万 / 三万卡的国产智算集群,国外的 30 万、50 万甚至 100 万卡更多是宣传口径。万卡级以上规模智算集群主要用于大规模模型训练,而当前的大模型训练还不需要单个智算集群达到数十 / 百万卡规模。" 因为根本没有那么多数据,模型参数也不太可能突然增长。" 他表示,但在未来几年,大模型训练对万卡到十万卡级别仍有需求,3 年以内单集群不太可能到 30 万卡的规模。

陈志也认为,万亿参数级别的模型基本需要大几千卡甚至万卡。国外头部公司已做到 10 万卡、20 万卡规模,国内还没到这个水平,但今年也可能出现 10 万卡集群,这是趋势。因为模型的发布要抢时间,卡越多训练的时间就越短。

工作人员检查在算力中心检查设备 图片来源:新华社

筑 " 群 " 之困:系统稳定与网络瓶颈

尽管基于不同的软硬件水平,各家智算中心成本不同,但据业内粗略计算,构建和运营一个万卡级别的智算中心成本惊人——至少在 20 亿元以上。

" 其中硬件采购成本占比最大,通常高达 60%~80%,而 GPU 服务器本身占据了绝大部分。" 张永健说,以 1 万张主流训练 GPU 为例,仅硬件采购成本就可能超过 10 亿元。

如此大规模的投入,是否就能 " 丝滑 " 解决算力焦虑?对此,多位受访者均表示,将集群规模从几百几千卡扩展到万卡级别,绝非简单堆砌硬件。这是⼀个复杂的系统工程,会遇到⼀系列非线性挑战。

张永健认为,最大的技术难点是 " 系统级的稳定性和性能一致性 "。在万卡集群中,成千上万个组件 [ GPU、CPU(中央处理器)、网卡、内存、线缆 ] 中任何⼀个出现问题,都可能引发连锁反应。确保整个系统作为⼀个 " 超级计算机 " ⾼效稳定运⾏,是最艰巨的挑战。

用浪潮数据董事长张东的话说,不管是万卡还是十万卡,关键是能不能真的把这些卡当成一个系统跑起来。

而眼下关键的掣肘因素就是网络互联能力——从几百张卡扩展到万卡,节点之间需要实现网状、高速、低延迟互联,既包括卡之间的互联,也包括机器之间的互联。

万卡间的互联技术是一个很大的挑战。张东向每经记者解释,目前英伟达专供中国的芯片主要就是限制了其互联能力。就像人类工作时需多人协作,芯片工作时也需要进行数据交互,一张芯片处理完的数据要传递给另一张芯片进行处理。" 本来咱俩面对面,我写完一张纸就拿一张给你,现在一下变得隔了 100 米,还加了一个很慢的传送带,我写完了放传送带上,隔两分钟你才能收到,这样效率自然就下降了。"

张永健说,在万卡规模下,构建一个无阻塞、高带宽、低延迟的网络架构,其设计、部署和运维的复杂度呈指数级增长。任何一个交换机、光模块或线缆出现微小抖动,都可能导致大规模的通信风暴,从而拖垮整个训练任务。

不仅如此," 到了一定规模以后,机器的故障率就会很高,1 万卡的机器能连续跑 1 个小时,1 张卡都不出问题,是很难的。" 张东说。

有研究指出,一个十万卡集群,其故障间隔可能缩短到每半小时一次。英伟达创始人黄仁勋也曾提到,10 万张 GPU 的平均⽆故障时间将缩短至分钟级。

在张东看来,一方面是芯片本身的能力有限,另一方面,随着卡的数量不断增加,软件的线性比(即软件能否完美利用更多硬件资源的比率,越接近 1 越好)会下降,这意味着到某个点以后若再增加卡,性能并不会上升,还有可能下降。

而⼀次动辄耗时数周甚至数月的训练任务,如果中途频繁失败且无法快速恢复,那么再高的理论算力也毫无意义,用户获得的有效算力将大打折扣。

除了稳定性,万卡集群还面临存储性能瓶颈、软件栈复杂性等方面的挑战。

饶少阳坦言,受限于 GPU 内存访问性能、网络传输效率、算法优化程度、故障恢复能力等因素,想把万卡集群的性能全部发挥到极致是一件极其复杂的事情。因此,目前万卡集群的算力利用率并不高,行业领先者的利用率可达 50% 以上。

张永健还提到,⼀个万卡集群的峰值功耗⾼达数⼗兆瓦(1 兆瓦 =1000 千瓦,1 小时 1 兆瓦即 1000 度电),这对数据中⼼的供配电和冷却系统考验巨⼤。

多位受访者表示,一个万卡集群的智算中心与传统数据中心相比,能耗成倍增长,甚至达到十倍级。

近年来我国在用数据中心机架规模

截至 2024 年末,我国在用数据中心机架规模已达到 900 万架

破 " 局 " 之策:超节点与低精度计算发力

尽管用万卡集群训练模型面临不少挑战,但记者在采访中了解到,目前业内正积极探索在计算、网络、存储、能耗等方面进行优化。

8 月 23 日,在 2025 中国算力大会现场,来自运营商、互联网企业、芯片厂商、服务器制造商及科研院所等领域的数十家国内产学研用核心单位,共同宣布开启智算开放互联 OISA(全向智感互联架构)生态共建。

联想中国区基础设施业务群服务器事业部总经理周韬对每经记者表示,OISA 其实就是卡间互联的一套技术。

在大会算力成果展示区的中国移动展位,记者看到了带有 OISA 标识的 " 国芯国连 " 超节点 AI 算力集群的机柜。山西移动政企能力运营总监吕乐向每经记者介绍,以往一个机柜最多放三四台服务器,而这个超节点机柜能放 16 台服务器,每台服务器里有两颗 CPU、四张国产 GPU,一共 64 张 GPU 卡(AI 国产芯片)。

展示中的超节点 AI 算力集群机柜   每经记者 张蕊 摄

他进一步介绍,以前两张卡部署在不同的服务器里,大家认为 1+1=2,但上下相隔尽管只有几厘米,转发产生的时延往往也会使整个计算效率损失 20% 以上。" 通过 OISA 协议把两张 GPU 芯片级直连后,通信延迟降低产生的效果才大于 2,实际计算效率是单卡的 240%。"

问及不同厂家的 GPU 是否可以混插,吕乐表示,过去不行,不过现在通过统一 OISA 协议,可以把不同厂家的接口、PCle(高速串行总线标准)、CXL(高速互联协议)底层协议全部打通,包括昆仑芯、摩尔线程等的芯片都可以集成到同一机柜里,实现高密度、异构部署。

饶少阳表示,所谓超节点就是通过高速互联技术,把几十张甚至几百张卡连接起来集成在一个大机柜里,比如华为昇腾 384 超节点就是把 384 张卡通过高速互联 " 拼成 " 一台超级服务器,整体性能可对标甚至超越 GB200NVL72 系统(英伟达的多节点液冷机架级扩展系统)。

吕乐表示,超节点是万卡集群的基础。如果在一个机柜里都没法做到高效互联,就谈不上把 1 万张卡连成一个整体。传统分散部署时,1 万张卡加起来只能发挥 60%~70% 的算力,而现在通过超节点内高效互联 + 超节点间高速网络,计算综合效率有望大幅提升。

除了超节点技术,业内正在通过低精度计算来优化计算过程。其中,FP8(8 位浮点数)技术逐渐崭露头角。

陈志提到,最早训练是 FP32(32 位浮点数),慢慢转向混合精度训练 FP32+FP16(16 位浮点数),再到 FP8,数据位宽逐渐变小,因此可实现更高的计算效率和更低的内存占用,进而降低算力成本。

打个比方,FP32、FP16 和 FP8 就分别类似于游标卡尺、普通直尺和粗略的刻度尺,三者精度由高到低,内存占用从大到小,计算速度从慢到快,在保证模型性能和效果的前提下,选择尽可能低的精度,并结合软硬协同、算法优化等技术创新,可以换取速度、节能和成本上的巨大优势。

在陈志看来,现在大模型对精度容忍度更高,FP8 有很大机会。除了用低精度方法提升总算力,还要提升算力的整体利用率。利用率 = 单卡能力 × 万卡能力 × 节点能力 × 集群能力 × 集群稳定性。" 所有这些都在一个工厂里进行优化,也就是我们提的 AI 工厂概念,整体优化后,假如最后达到 60% 的利用率,而别人只有 30%,那就相当于多了一倍的卡,或者达到同样的训练时间只用一半卡。"

降 " 耗 " 之路:液冷与绿电直连显效

张永健告诉记者,一个万卡集群的成本中,电力与运维成本⼤约占 20%。其中,电力成本(包括 IT 设备用电和冷却系统用电)是持续性的巨大开销。一个 10 万卡的集群,年耗电量可达 1.59 太瓦时(等于 10 亿千瓦时即 10 亿度电),电费超过 1 亿美元。在运营成本中,冷却系统的能耗是数据中⼼最大的支出之一,有时能占到总运营成本的 50%。

华为数据中心能源副总裁张帆告诉每经记者,集群规模大了之后,功率密度变大,单个芯片散热量很大,超过一定程度风就带不走热量,就需要有液冷方式。

周韬告诉记者,目前液冷主要有两种方式,冷板式液冷只能冷却 GPU 或 CPU,浸没式液冷可以把整个机器所有部件都浸没,散热效率比前者提高 30%~40%。

国内企业展示的相变浸没式液冷技术设备 每经记者 张蕊 摄

" 目前冷板式液冷其实可以满足散热需求,成本也更低,在维护、生产工艺、后续运维方面都更简单。" 周韬说,但浸没式效率更高,未来 GPU 功耗再提升时,冷板可能也不够,就像以前风冷够用,后来功耗增大就不行了。当前,浸没式是更具前瞻性的技术。

在联想展位,记者看到一台相变浸没式液冷概念机。联想中国基础设施业务群市场部总监级技术顾问李鑫告诉记者,当冷却液达到 60 摄氏度时就会变为气体将热量带走,系统 PUE(电能利用效率)低至 1.035。

博大数据是国内最早大规模部署单相浸没式液冷和冷板式液冷的厂商之一。张永健说,公司采用液冷的智算中⼼ PUE 可以控制在 1.15 以下,部分甚至可以达到 1.04,远优于传统风冷数据中⼼ 1.4~1.5 的水平。

有观点认为,存算一体的芯片有望能从根本上缓解大规模集群的能耗和散热问题。张永健说,由于当前数据需要在存储单元和计算单元之间频繁搬运,耗时耗能。存算⼀体通过在存储器内部完成计算,可极大减少数据搬运,理论上能带来几个数量级的能效提升。对于万卡集群这种数据搬运极为密集的场景来说,吸引力巨大。

但多位受访者都认为,其商业化落地还十分遥远。张永健说,从技术成熟度来说,它对新型存储介质、电路设计、制造工艺都提出了极高要求,目前仍处于实验室和早期原型阶段。与此同时,现有软件生态无法直接复用,应用场景上存算⼀体能否高效处理通用的大模型训练任务,仍是一个未知数。

在能源供应方面,目前算力电力协同已经成为多部门政策关注的焦点。目前业内通过源 - 网 - 荷 - 储多元互动形成了绿电直连、源网荷储一体化、算力负载转移、储能技术、绿电绿证交易、虚拟电厂、算力赋能电力六大协同模式,实现绿电就地消纳。

中国信通院云大所数据中心部副主任王月认为,算力中心绿电直连有望成为业内近期发展的重点。

所谓绿电直连就是指光伏、风电等绿色电源项目,通过专线直接输送给特定用户,不再强制要求全额上网或仅通过电网企业统购统销。

秦云基础园区事业部总经理许俊对每经记者表示,其智算中心的单机柜功耗可以做到 42 千瓦,使用全风冷(风冷的散热极限是单机柜 60 千瓦)散热。由于采用了绿电直连,PUE 这一指标可以说已经失效了,比如利用氟泵空调做一些余热回收给办公室供暖,"PUE 可以为负 "。

谋 " 远 " 之思:单芯跃升与软硬件协同

综上,万卡集群甚至十万卡集群是否真能解决算力焦虑?绝大多数受访者认为,单靠堆卡并不能完全解决。

张永健认为,算力焦虑的本质是人类对 AI 能力的无尽追求与物理世界资源限制之间的矛盾。今天可能觉得万卡很庞⼤,但明天为了训练更复杂的模型,又或许会需要百万卡集群。需求总是在被满足的同时,又被激发到新高度。

问及下一代算力基础设施的突破方向,张东、周韬、北大人工智能研究院研究员孙仲等多位受访者认为,首先还是应该从硬件去突破。换句话说,在 AI 算力竞赛远未结束的情况下,还是要提高单芯片的能力。

孙仲对每经记者表示,做大模型必须靠堆卡只是现状,不是理论上的必然。如果未来有新芯片架构,效率比 GPU 高几个数量级,那时就不用万卡了,可能百卡甚至更少的计算卡就够了。

张永健认为,未来的超算中⼼将不再是单一的 GPU 集群,⽽是 CPU、GPU 以及各种专用加速器、存算一体芯⽚甚至是光子计算芯片等多种计算单元深度融合的异构系统。挑战在于如何通过统一的软件接口,将不同的任务无缝调度到最适合它的硬件上。

而在互联技术方面,他认为,随着带宽需求的急剧增加,光互联将从数据中⼼内部的交换机互联进⼀步下沉到芯片与芯片之间。这将彻底消除电信号传输的瓶颈,实现更低延迟、更高带宽的连接,为构建更大规模的计算集群扫清障碍。

多位受访者同样强调了软件能力的重要性。

张永健认为,当大家都能买到或建起万卡集群时,如何比对手用得更好更省更高效,就成了决胜关键。未来竞争的焦点将集中在:更高效的 AI 框架和编译器;更智能的调度算法;更先进的模型压缩与量化技术;数据处理与 I/O(输入 / 输出)优化。

吕乐认为,未来不是简单堆 20 万、30 万张卡,而是把全国 30 多个省份的算力、存力、运力统一调度起来,就像高铁调度一样,哪里任务多就扩哪里,哪里有空余就调剂过去,实现算力 " 像水电一样 " 弹性流通。

张永健还提到,软硬件协同设计非常重要,未来 AI 芯⽚和系统在设计之初,就会与上层的 AI 算法和框架进行协同设计。硬件为特定算法优化,算法也充分利用硬件的特性,实现 1+1>2 的效果。

此外,探索更高效的训练⽅法,如自监督学习、迁移学习、稀疏化训练等,减少对海量标注数据的依赖和对蛮力计算的投⼊,可以从源头上降低算力需求。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

军备竞赛 gpu 马斯克 美国 中国电信
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论