模型催热算力战
作者/ IT 时报记者 毛宇 贾天荣
编辑/ 潘少颖 孙妍
沐曦科技展台前,一排散发着幽蓝光芒的超节点算力机柜格外醒目,机柜如钢铁巨人般矗立,单柜 128 GPU 的标识凸显强大算力,纯液冷设计让它摆脱传统风冷的繁杂散热装置,引得参观者纷纷驻足。
" 在你面前的其实是一个千卡集群!" 沐曦科技展台工作人员告诉《IT 时报》记者,此次展出的是沐曦最新算力技术——超节点机柜,每个机柜 128GPU,10 个机柜共 1280GPU。超节点机柜去掉了传统风冷装置,仅设计了液冷装置,整个机柜能耗较先前的单机柜群组更加节能。
不仅是沐曦,在 WAIC2025 展馆内,算力展品琳琅满目。超聚变展出了全球首个多元智算即插即用超级集群系统,单柜 128 张 AI 加速卡;燧原科技的 DeepSeek 一体机系列展台前有不少参观者,这款产品 2025 年初刚推出,支持国产 CPU 平台和多种场景调优能力。
众多企业超节点算力的扎堆发布,恰似一场国产算力创新的 " 集体冲锋 "。随着年初 Deepseek 爆火,大模型时代来临,算力需求暴涨,正倒逼国产算力芯片行业加速创新,超节点就是这场攻坚战的关键武器。但创新浪潮下,行业仍对潜在风险保持高度警惕。
创新
超节点算力打响突围赛
" 超节点可以理解为大规模集群,以前一台服务器算一个节点,现在超节点把多个节点‘拧成一股绳’,像我们的高密度机柜超节点,一台机柜集成多台服务器,实现 128 卡甚至更高密度的算力聚合。" 沐曦展台工作人员表示,超节点算力,本质是应对大模型时代极致算力需求的集群化解决方案。" 以前摊开部署多机柜,现在超节点把算力集中,既省了机柜租金、电费,还不用风冷技术,液冷就能搞定散热,契合大模型时代降本增效的需求。"
简单来说,它将多台服务器、多张算力芯片卡整合为规模更大、算力更强的整体算力单元,突破传统算力部署的边界。这种聚合,并非简单的硬件堆叠,而是通过优化节点内互联技术、液冷散热等手段,提升集群整体能效、通信带宽与空间利用效率。
而在以 " 芯聚算力开芯局,源引 AI 共未来 " 为主题的论坛上,沐曦联合创始人、CTO 兼首席硬件架构师彭莉带来旗舰 GPU 曦云 C600,曦云 C600 集成大容量存储与多精度混合算力,支持 MetaXLink 超节点扩展技术,并内置 ECC/RAS 多重安全防护模块,能满足下一代生成式 AI 的训练和推理需求。" 沐曦又一次完成从‘研发优势’向‘产品优势’的关键跃迁。" 彭莉表示。
在 WAIC 现场,超节点的技术特征与创新价值清晰展现。
燧原科技的云燧 ESL 超节点系统,单节点最高可实现 64 卡全带宽互联,采用液冷方案,追求 " 高性价比、高密度、高能效 "。展台工作人员向《IT 时报》记者介绍:" 大模型参数量从几百亿级往万亿级跳,传统算力部署在节点通信、空间功耗上扛不住,超节点通过优化内部互联,让算力集群‘跑起来更快、用起来更省’。"
超聚变发布的全球首个多元智算即插即用超级集群系统,单柜 128 张 AI 加速卡,112G/224G 的高速互连,单柜 240kW 的超级供电,一柜顶 32 柜,使用第五代 100% 原生液冷,能够节能 20% 以上。超聚变打造的软硬件基础设施技术与算力生态,可兼容 10 多家加速卡,提供双生态南北向安全异构算力。
超节点扎堆发布,背后是大模型发展倒逼的算力变革。传统算力部署的节点间存在通信瓶颈、空间占用大、功耗高等问题,无法满足大模型训练与推理需求。正如行业共识,模型参数量越大,需要的卡越多,超节点把分散的算力 " 攥成拳头 ",减少机柜占用,提升通信效率,是支撑大模型发展的必然选择。
瓶颈
国产算力还卡在哪?
在人工智能产业蓬勃发展的当下,算力作为其核心驱动力,重要性不言而喻。然而,国产算力在前进的道路上却面临着诸多阻碍,发展现状不容乐观。
从硬件基础来看,制程代差成为国产算力芯片难以忽视的痛点。太极股份数字基础设施业务集团总经理孟凡池向《IT 时报》表示,国内独角兽 GPU 企业的主力制程集中在 7/12/14 纳米,与国际领先的 3/4 纳米制程相比,存在明显的代际差距,导致的性能差距最高可达 10 倍。这意味着在处理相同复杂任务时,国产算力芯片在速度、效率等关键指标上,远不及国际先进水平,极大限制了其在高端应用场景的使用。
在算力网络架构方面,国产算力也处于初级阶段。多名 GPU 企业的展台工作人员也向《IT 时报》记者坦言,如今仍受限于光刻机复杂的工艺流程,国产 GPU 发展之路还有待继续突破。
而数据数量、接口闭环等标准尚在起草之中,不同设备间的互联率较低,延迟、带宽瓶颈以及网络拥塞等问题频发,严重影响了算力资源的高效利用。即便拥有先进的智能算法体系,面对海量业务资源和复杂任务,也会因算力调度不畅,出现效率低下和资源分配不均的情况,无法充分发挥国产算力的潜力。
散热问题同样掣肘着国产算力的发展。随着 GPU 服务器功耗不断激增,传统风冷散热方式已难以满足需求,而液冷技术虽然被视为解决之道,但目前其成熟度仍有待提升,成本仍有下降空间。
面对通用 GPU 的 " 卡脖子 " 困境,中昊芯英创始人及 CEO 杨龚轶凡认为 " 多芯多技术路径 " 是中国 AI 芯片产业的必然选择," 当市场体量足够大时,定制化芯片设计的性价比将远超通用器件,至少提升 2~3 倍,甚至可达 5~10 倍,这将显著降低大模型等应用的生产成本。"
他以大模型演进为例:" 去年行业普遍认为 7B 参数模型足矣,今年已全面迭代至 70B。未来参数膨胀趋势下,唯有支持多芯片高效互联的专用架构才能承载。"
" 当前算力市场正处于‘一卡难求’的饥渴状态。" 孟凡池向《IT 时报》透露,互联网大厂正掀起算力军备竞赛:阿里计划两年投入 3800 亿元,腾讯、字节跳动也斥巨资布局,但美国芯片禁令导致英伟达高端 GPU 进口受阻,国产芯片供应链尚未完全畅通," 对大厂们来说,目前都面临算力供应短缺,真实需求仍在持续攀升 "。
据孟凡池观察,数据行业自 2021 年起持续下行,至 2023 年触底,而智算中心需求却逆势爆发。太极股份作为北京市政务云等国家级项目的建设者,正在将政务云经验转移至算力服务领域。" 过去用 CPU 服务器组网提供 SaaS 服务,现在用算力服务器组建算力网。" 他坦言,从去年开始,很多算力订单一减再减,不是用户需求减,是拿不到算卡,目前我们服务的终端客户,无论是国产的芯片,还是进口芯片,我觉得现在主要是缺芯,但是实际上需求还是蛮旺盛的。
未来
国产 GPU 替代率或超 80%
在全球 AI 算力需求以每两年 750 倍速率极速扩张的当下,国产 GPU 发展态势备受瞩目。
英国皇家工程院院士郭毅可在沐曦论坛上预测,到 2027 年中国云端 AI 芯片市场规模将突破 480 亿美元,国产 GPU 替代率预计超 80%,这为国产 GPU 产业描绘了一幅充满潜力的未来蓝图。
技术创新是国产 GPU 发展的核心驱动力。尽管目前国产独角兽 GPU 企业主力制程与国际顶尖水平存在代际差距,但企业从未停止追赶的脚步。众多企业在制程工艺、芯片架构等方面持续投入研发,部分企业已取得阶段性成果,产品性能逐步提升。同时,定制化芯片设计崭露头角,有望凭借更高的性价比,在市场中占据一席之地,为国产 GPU 技术发展开拓新路径。
生态构建层面,企业间合作愈发紧密。如阶跃星辰联合近 10 家芯片及基础设施厂商发起 " 模芯生态创新联盟 ",推动 " 芯片—模型—平台 " 全链路技术贯通。
此外,标准制定工作稳步推进。论坛上,中国电子技术标准化研究院建立的人工智能国家标准评测基准体系 " 求索 2.0",为国产芯片设计等提供国家级技术指南,将推动构建 " 安全可控、成本优化、场景适配、持续创新 " 的国产算力体系。并且,开源开放趋势明显,部分企业开源芯片技术与模型框架,吸引全球开发者参与,这些均加速国产 GPU 生态繁荣。
排版/ 季嘉颖
图片/ IT 时报 WAIC
来源/《IT 时报》公众号 vittimes
E N D
登录后才可以发布评论哦
打开小程序可以发布评论哦