钛媒体 昨天
大模型进入万亿参数时代,超节点是唯一“解”么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_caijing1.html

 

模型发展的两极化趋势已经愈发明显,一方面,在企业级应用侧,小参数模型成为应用落地的最佳选择;另一方面,通用大模型的参数正在不断攀升,大模型已经进入了万亿参数时代。

当前,MoE (Mixture of Experts)高效模型架构正在驱动大模型参数规模持续提升,比如采用 MoE 混合专家架构的 KIMI K2 开源模型,其总参数量达 1.2 万亿,但每个 Token   推理时仅激活 32B 参数。

算力系统面临挑战

随着模型参数的不断增加,万亿参数模型时代已经到来,无论是 KIMI K2,还是 GPT、Grok,参数量都已经发展到万亿阶段,而万亿参数的模型也对算力系统架构提出新的挑战。

首先要面临的就是庞大算力需求。万亿参数模型的训练需要极高的算力支撑。以 GPT-3 为例,其 1750 亿参数的训练量相当于在 2.5 万张 A100 GPU 上运行 90-100 天。万亿参数模型的算力需求可能达到数十倍,传统计算架构难以满足。

同时,模型并行和数据并行的分布式训练虽能分摊计算压力,但跨节点的通信开销(如梯度同步)会显著降低算力利用率。例如,GPT-4 训练的算力利用率(MFU)仅为 32%-36%,主要受限于显存带宽导致的 " 内存墙 " 问题。

此外,超大规模 MoE 模型的训练稳定性也是不小的挑战。参数规模和数据体量的激增会导致梯度范数频繁突刺,影响收敛效率。同时,模型参数量的增加以及序列长度的增加将会带来 KV cache(键值缓存,Transformer 架构大模型在推理过程中常用的一种优化技术), 数量的激增,尤其是序列长度的增加可能会带来指数级的 KV cache 存储空间的需求。

以 FP16 格式计算,万亿参数模型仅权重就需约 20TB 显存,加上 KV   cache、激活值等动态数据,实际内存需求可能超过 50TB。例如,GPT-3 的 1750 亿参数需 350GB 显存,而万亿参数模型可能需要 2.3TB,远超单卡显存容量(如 H100 的 120GB)。此外,长序列(如 2000K Tokens)的训练会使计算复杂度呈平方级增长,进一步加剧内存压力。这些需求远超过了传统 AI 服务器的显存能力极限,亟需构建具有更大显存空间的计算系统承载,才能解决模型 " 放得下 " 的问题。

此外,MoE 架构的路由机制容易导致专家负载不均衡,部分专家因过度使用成为计算瓶颈,而其他专家则训练不足。具体来看,传统局部负载均衡损失(Micro-batch LBL)会阻碍专家领域特化,因为单个 Micro-batch 的数据分布往往单一。

对此,阿里云提出了全局负载均衡损失(Global-batch LBL),通过跨 Micro-batch 同步专家激活频率,在保障全局均衡的同时允许局部波动,显著提升了模型性能(平均 PPL 降低 1.5 个点)。

此外,当大模型技术方向逐渐从训练转向推理场景,清程极智 CEO 汤雄超在 WAIC   2025 期间曾向笔者表示,AI 技术的主要方向,已经从预训练转向了后训练及推理阶段," 算力需求也正在从训练侧,转向推理侧。" 汤雄超指出。

大模型推理属于敏感型计算,对分布式计算通信延时要求很高,以 MoE 架构模型为例,其分布式训练涉及大量跨设备通信,如 Token 分发与结果聚合,通信时间占比可高达 40%。浪潮信息副总经理赵帅表示,在此背景下,企业需要构建更大 Scale Up 高速互连域。

总体来看,赵帅告诉笔者,万亿模型对算力系统也提出了很大挑战," 企业需要具有更大显存空间、更大高速互连域、更高算力的超节点系统支持。" 赵帅指出。

构建大规模 Scale Up 系统或是最优解

面对算力需求的增加,以及新需求所带来的挑战,传统 Scale Out 集群通过增加节点数量扩展算力,但节点间通信瓶颈(如 InfiniBand 的 10 微秒时延)在万亿参数模型训练中被无限放大。单节点已经不能满足超大规模参数模型的训练需求,Scale Up 系统通过超节点技术,将数百颗 AI 芯片封装为统一计算实体,实现跨节点通信性能接近节点内水平。

从大模型应用角度出发,面对单点算力 / 显存的天花板,构建大规模 Scale Up 系统,通过并行计算技术(如专家并行、张量并行)将模型权重与 KV Cache 拆分到多个 AI 芯片上协同工作,在赵帅看来,这种路径是解决万亿参数模型计算挑战的唯一可行路径。" 我们需要构建大规模、高集成度的 Scale Up 系统,通过紧密耦合大量的 AI 芯片形成单一高速互连域,才能汇聚起超大显存池以承载模型,并通过优化互连拓扑与协议实现芯片间超低延迟、高带宽通信,从而满足万亿模型推理‘放得下、算得快’的要求。" 赵帅指出。

通过 Scale Up 系统的方式,已经成为未来万亿参数模型的必然趋势,对于万亿大模型推理,不仅需要构建更大的显存空间,还需要实现卡间超低延迟的互连,构建更大的 scale up 高速互连域。

除了构建庞大的系统之外,多芯片协同也是目前企业较为常用的一种方式,将多枚芯片封装到一个计算带上,缩短芯片间的距离,以实现更高的性能。

针对此,服务器厂商也在寻找新的技术方向,以满足客户在超大规模参数模型训推方面的需求。以浪潮信息为例,在近日举办的 2025 开放计算技术大会上,浪潮信息就发布了面向万亿参数大模型的超节点 AI 服务器 " 元脑 SD200"。赵帅向笔者介绍道,该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放系统设计聚合 64 路本土 GPU 芯片。

具体来看,此次发布的元脑 SD200 在可单机运行 1.2 万亿参数 Kimi K2 模型的同时,还支持 DeepSeek、Qwen、GLM 等模型同时运行,并支持多 Agent 协同按需调用。" 构建具有更大显存空间、更大 scale up 高速互连域,以及更高算力的超节点系统,应对万亿模型的算力挑战。" 赵帅与笔者分享了浪潮信息推出元脑 SD200 的 " 初心 "。

从系统开放协同角度出发,元脑 SD200 基于全局路由自动构建技术,得以实现 64 卡 P2P 全互连与业务感知的拓补动态切换,并配合多层级通信机制,降低了 All Reduce/All Gather 时延。

与此同时,依托开放 PD 分离框架,支持异步 KV Cache 高效传输与差异化并行策略,在提升业务 SLO 的同时保持对多元算力的兼容性,实现计算与通信架构的深度协同优化。

从架构创新角度出发,元脑 SD200 采用了多主机 3D Mesh 系统架构,基于 Open Fabric Switch 实现 64 路 GPU 高速互连。面对为何选择创新性的 3D Mesh 系统架构的提问,赵帅表示,3D Mesh 系统架构能够让服务器拥有一个更大的、统一地址的显存空间," 通过 3D Mesh 系统架构,将原先单机 8 卡全互连拓展到了多机,跨域互连。" 赵帅指出。

从应用角度出发,随着推理场景的不断发展,对低延迟的要求也越来越高,这也导致了 Scale Up 会成为接下来技术重点发展的方向,"Scale Out 技术已经相对成熟,同时,在推理场景中,Scale Up 是首先需要解决的问题,这也让 Scale Up 成为未来大模型技术发展重点探索的领域," 赵帅进一步指出," 但这也并不意味着 Scale Out 就不适用了,Scale Up 与 Scale Out 会保持同步前行的状态。"

软硬协同是关键

Scale Up 的发展除了硬件架构的变革之外,也离不开软件系统的搭建,只有做好软硬协同,才能激发芯片更大的潜能,提升算力利用率。

当前,软硬协同是解决万亿参数大模型算力瓶颈的核心路径,其本质是通过软件层深度适配硬件特性、硬件层针对性支撑软件需求,实现 "1+1>2" 的效率跃升。

硬件能力的释放需软件层深度适配,比如,字节跳动 COMET 技术通过动态 KV 缓存重组,将 MoE 模型的通信延迟从 0.944 秒降至 0.053 秒,使超节点硬件利用率突破 90%。若缺乏软件优化,即使硬件带宽提升 10 倍,实际通信效率可能仅提升 2-3 倍。

基于此,赵帅表示,通过多年,历经从实验室到应用,再到用户 POC 的过程,浪潮信息发现,软件在超节点复杂的系统中,发挥着重要的作用," 当 scale up 链路复杂程度逐渐升高之后,就更需要对其进行更为细致的监控和管理," 赵帅进一步指出," 这种监控和管理与之前单机内的监控管理相比,复杂度更高,同时还需要在上层实现匹配创新系统架构的应用框架。"

以此次浪潮信息发布的元脑 SD200 为例,其中就针对 3D Mesh 系统架构开发了一套 PD 分离框架,但受限于 PD 分离技术定制化程度高、开源方案经验少等特点,赵帅表示,在整体开发过程中,还是经历了很长的 POC 环节,才将软硬协同做到最优。

除此之外,数据中心就像一枚硬币,一面是要面对日益增加的单机柜功率,另一面是要有序推进碳中和进程,如何平衡好硬币的两面,也是当前企业需要考虑的因素。尤其是使用超节点,其功耗密度已达兆瓦级(如万卡集群功耗 > 10MW),软硬协同是破局关键,若软件未适配硬件的动态功耗调节,可能导致芯片长期处于高功耗状态,甚至引发过热降频。

万亿参数大模型的爆发式增长,正推动算力系统进入从 " 量变 " 到 " 质变 " 的关键转折期。庞大的参数规模、激增的显存需求、复杂的通信开销,以及 MoE 架构带来的负载均衡与训练稳定性挑战,共同指向一个核心命题:传统算力架构已难以承载智能进化的新需求。在此背景下,硬件架构的创新需要软件层的精准适配,从动态 KV   cache 重组到全局负载均衡策略,从通信协议优化到功耗智能调控,软件系统正在成为释放硬件潜能的 " 钥匙 "。唯有让硬件特性与软件需求形成闭环,才能真正突破 " 内存墙 "、" 通信墙 " 的桎梏,将超节点的算力优势转化为大模型落地的实际效能。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi ai 开源 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论