通信产业网 11-11
寻找“算力王”:智算中心需要怎样的AI服务器(附典型比较)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2024 年以来,中国智算中心建设如火如荼,也在不断推动着服务器厂商持续推出加速计算服务器新品。

近两年,AI 大模型给产业带来了巨大的影响,以 GPU 为核心的智算逐步成为算力的主要发展方向。据工信部规划,中国智能算力的占比将在 2025 年达到35%,年复合增长率在30% 以上,这意味着智算中心将引领数据中心建设的潮流。

服务器是提供数据存储、运算等服务的高性能计算机,包含处理器、内存、硬盘和其他功能及基础硬件。2024 年以来,中国智算中心建设如火如荼,也在不断推动着服务器厂商持续推出加速计算服务器新品。

算力需求持续增长,带动 AI 服务器的需求居高不下。

运营商智算 " 加速跑 "

AI 算力基础需求高增,国内供给显著改善。今年以来,运营商开展了大规模的智算中心建设,并开展了几次重要的算力服务器集采。

从资本开支来看,运营商加大算力相关资本开支。公开信息显示,2024 年,中国移动算力领域预计投入475 亿元,同比增长21.5%,占资本开支比重提升 5.8 个百分点至27.5%。中国电信产业数字化计划资本开支370 亿元,同比增长4.1%,在云 / 算力计划投资180 亿元。中国联通在算网数智投资方面将坚持适度超前、加快布局,但是未披露具体数额。可以看出,中国移动暂时拔得头筹,中国电信和中国联通紧随其后。

此外,财报显示,到 2024 年底,中国电信智算算力规模将大幅领先,中国移动次之。中国电信计划 2024 年智算算力提升10EFLOPS,超过21EFLOPS。中国移动 2024 年智算算力累计超过17EFLOPS

从运营商积极布局智算中心来看,据不完全统计,目前,国内建成和在建的智算中心项目超 500 个,运营商为满足市场需求,正加快建设智算中心项目超 80 个,争夺政企市场。

中国移动优化全国性智算中心和边缘智算节点布局,全网智算规模达到17EFLOPS(FP16),年内将投产3 个近两万卡超大规模单体智算中心和12 个区域智算中心。中国电信适度超前建设智算基础设施,持续加大智算能力建设,规划并建设全国 "2+3+7+X" 公共智算云池,在京津冀、长三角地区建设两大万卡智算集群,西部地区打造大规模绿色智算池。中国联通布局热点集约、跨区辐射、边缘覆盖的多级算力体系,构建了 "1+ N+X" 全国分梯次智算资源,IDC 规模超 40 万架,云池覆盖230 多个城市

从运营商招标项目来看,2024 年 4 月,中国移动发布 2024 年至 2025 年新型智算中心采购招标公告,此次采购包含 AI 服务器7994 台,成为有史以来国内最大规模的 AI 服务器集采。加上此前中国移动 2023 年至 2024 年新型智算中心(试验网)集采项目,12 个标包对应 AI 训练服务器采购量总计达到2454 台,中国移动这两次 AI 服务器集采规模合计超万台

除了中国移动之外,其他两大运营商此前也开启了 AI 服务器大规模采购。中国联通在今年 3 月启动 2024 年人工智能服务器集采,其中,人工智能服务器采购总规模为2503 台。中国电信在去年 10 月也采购了4175 台AI 服务器。以算力基础设施来说,在大模型产品迭代发展中,算力需求持续增长,带动 AI 服务器的需求居高不下。

AI 服务器市场竞争激烈

在智算中心的建设中,服务器的选择至关重要,它直接关系到算力的强弱、任务的执行效率以及资源的利用率。一般来讲,智算中心的服务器主要包括训练服务器、推理服务器或训推一体服务器等三大类。

训练服务器主要利用大量数据对 AI 模型进行训练,通过调整模型参数使模型更好地拟合数据,学习数据中的特征和规律。这通常需要高性能的硬件支持,如高性能 GPU 或 TPU(张量处理单元),以及大容量内存和高速存储设备。此类服务器的特点是适用于模型开发和训练阶段,需要强大的计算能力和长时间的稳定运行。  

推理服务器主要功能是对输入数据进行快速推理计算,生成预测结果。这通常用于实时应用场景,如自动驾驶、实时语音识别等。这类服务器特点是要求低延迟、高可靠性,通常采用低功耗的 GPU 或专用的推理芯片,如 NVIDIA 的 TensorRT 系列芯片,在保证推理速度的同时降低能耗和成本。

训推一体服务器是既能进行模型训练又能进行推理计算的服务器。它的特点是资源利用率高,可以根据实际需求灵活分配计算和存储资源。但设计和维护成本也相对较高,需要解决 CPU 和 GPU 之间的算力融合问题,以及不同任务之间的资源调度问题。

针对智算中心存在的算力融合、算力孤岛、算力低效、硬件投资与更新、网络与管理等问题,在智算中心的建设中,服务器的选择应根据实际需求进行权衡。训练服务器适用于模型开发和训练阶段,推理服务器适用于实时应用场景,而训推一体服务器则可以在两者之间实现灵活切换和资源共享。

与此同时,智算服务器与传统通用服务器最大的区别,在于算力芯片的不同。智算服务器为了保证操作系统运行,也配置了 CPU。但是,为了更好地完成 AI 计算任务,配置了更多的GPUNPU(神经网络处理单元)、TPU等计算芯片(4 块或 8 块),以这些芯片输出的算力为主。

除了芯片不同之外,为了充分发挥性能以及保障稳定运行,AI 服务器在架构、存储、散热、拓扑等方面也进行了强化设计。例如,智算服务器的 DRAM 容量通常是普通服务器的8 倍,NAND 容量是普通服务器的3 倍,甚至它的 PCB 电路板层数也明显多于传统服务器。

大模型发展带来了对超大规模算力、高性能存储、超大规模算力调度及管理、绿色节能等技术能力的需求。算力中心当前阶段,规模属于万卡集群、体量大,服务器采购要多型号、多厂家,配套液冷需要专业液冷供应商提供,来解决其解耦交付痛点。

超聚变推出 FusionPoD for AI 整机柜液冷服务器,从双生态、多样性算力、绿色低碳方面全方位重构智算底座,为智算集群需求打造高密、坚实、开放平台。中兴通讯推出的新互联 AI 服务器突破单节点算力瓶颈,旨在应对 AI 大模型训练中的通信带宽和时延挑战,并在算力提升和扩展性方面展现了领先的技术创新。新华三新发布的 H3C UniServer G7 系列依托面向 AI 的可进化架构、内生 AI 的操作系统和管理中枢,以及拥抱 AGI 的多元算力体系,为用户提供了灵活、高效、绿色的算力支持。浪潮元脑服务器 NF5898G8,在 AI 算力方面具有强大的兼容性和卓越的性能,进一步加速算力融合创新。联想新一代 Neptune 海神液冷服务器,允许 AI 和 HPC 客户在不需要专门的数据中心空调的情况下运行 100 千瓦以上的服务器机架,98% 的热量将转移到水循环中。信维全新推出的 AI 训推服务器 H8650G5I 提供不同的散热 SKU,包括空气冷却和液体冷却解决方案。

对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是提供综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面。未来,智算服务器将采用更高效的能源使用方式,实现绿色计算,并加强数据和模型的保护措施,以确保数据的安全性和隐私性。

采写:胡媛

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 中国移动 中国电信 中国联通 京津冀
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论