生成式 AI 的问世让整体社会对于算力的需求有了质的飞跃,尤其是当生成式快速发展的当下,AI 已经从大模型走向了智能体、具身智能的时代。每个企业、每个人都有了更多对于智算的需求。
一方面,AI 的影响下,原有算力正在经历不断被颠覆的过程;另一方面,AI 的赋能下,对于底层算力基础设施也带来智能化改造的机会。
算力需求正在发生变化
据 IDC 数据显示,2024 年全球人工智能服务器市场规模为 1251 亿美元,2025 年将增至 1587 亿美元,2028 年有望达到 2227 亿美元,其中生成式人工智能服务器占比将从 2025 年的 29.6% 提升至 2028 年的 37.7%。
聚焦中国算力市场,IDC 数据显示,2025 年,中国智能算力规模将达到 1037.3EFLOPS,预计 2028 年将达到 2781.9EFLOPS;中国通用算力规模将达到 85.8EFLOPS,预计 2028 年将达到 140.1EFLOPS,对此,IDC 中国副总裁周震刚曾告诉笔者,从增加趋势上分析,2023-2028 年,中国智能算力五年年复合增长率预计将达到 46.2%,通用算力预计将达到 18.8%," 从数据上不难看出,目前,用户对于算力的需求,绝大部分的增量将产生在智能算力方面。" 周震刚强调。
在模型参数不断增加的情况下,单集群训练大模型已经略显 " 吃力 ",跨域、跨集群混训大模型已经成为当下训练大模型的趋势。比如,日前,上海人工智能实验室发布 DeepLink 超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,例如跨越 1500 公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。
而实现跨域混训模型产品一方面是模型训练技术上的提升,另一方面也离不开近年来算网的建设,国家数据局局长刘烈宏曾在 2024 中国国际大数据产业博览会上表示,截至 2024 年 6 月底," 东数西算 " 八大国家枢纽节点直接投资超过 435 亿元,拉动投资超过 2000 亿元,机架总规模超过 195 万架,整体上架率达 63% 左右。" 东数西算 " 工程正式启动以来,东西部枢纽节点间网络时延已基本满足 20 毫秒要求,新建数据中心 PUE(电能利用效率)最低降至 1.04,东部算力需求有序向西部迁移,算力集聚效应初步显现。
不过在跨集群、跨域模型混训的过程中,企业也面临很多问题,对此,并行科技 AI 云事业部总经理赵鸿冰告诉笔者,跨集群混训大多时候就意味着需要链接不同的算力服务供应商,供应商之间的协议接口如何打通是技术层面首当其冲要面对的问题," 这就考验了算力服务商的服务能力。" 赵鸿冰强调。
除了技术层面的问题之外,商业利益的问题也是不容忽视的一个挑战。原先商业模式下,用户绝大部分模型训练处于一个算力服务商内,即便算力不够,外接部分其余算力服务商,在算力计价方面也好操作,但是混合之后,虽然用户不知道,也不需要知道自己用了哪家服务商的算力,在用户侧没有感受,但在服务商这一侧,如何做好算力调度平台内的商业利益划分,在赵鸿冰看来,也是当前需要面对的一个现实问题。
另一方面,伴随着 AI 大模型的发展,用户对于算力的需求从原先的单纯的训练需求,逐渐转向问训练、推理算力都有," 而且从目前需求上来看,在 DeepSeek 问世之后,推理算力的需求越来越大。" 赵鸿冰进一步指出," 总体而言,算力行业正从‘规模驱动’转向‘效率驱动’,技术门槛降低将吸引更多参与者,形成多元化竞争格局。"
无独有偶,清程极智 CEO 汤雄超也对笔者表示,通过本届 WAIC 可以看出,AI 技术的主要方向,已经成预训练转向了后训练及推理阶段," 算力需求也正在从训练侧,转向推理侧。" 汤雄超指出。
这种需求的改变也推动了算力服务模式的改变,对此,赵鸿冰告诉钛媒体 APP,算力服务模式正在从传统 IaaS(基础设施即服务)向 MaaS(模型即服务)升级,在这个过程中,从业务场景方面来看,将会更面向行业落地,云厂商通过预置 DeepSeek 优化模型提供端到端解决方案,降低客户算力采购复杂度。
而在此次 WAIC 期间,也有不少云服务商推出了一些新的算力服务理念,以浪潮云为例,浪潮云从过去以集中提供通用算力为主,到现在适应客户对算力服务小型化、专业化、分散化的需求,建设了人工智能工厂,为客户提供个性化、定制化的算力服务。
据展区工作人员介绍,浪潮人工智能工厂作为新型人工智能基础设施,是国内首个面向行业场景,具备工业化、标准化、规模化生产能力的人工智能生产流水线,重点解决人工智能全生命周期的标准化、自动化和规模化生产问题。" 目前,浪潮人工智能工厂已沉淀 61 道工序、113 套工具,并基于工匠中心持续提升生产能力与水平,同时依托工厂化运营模式,广泛汇聚人工智能产业链上下游生态,打造产业核心载体与创新引擎。" 该名工作人员对笔者表示。
算网建设是关键
在算力需求变化的过程中,企业在对算力的认知也存在了一些偏差与误区。对此,赵鸿冰告诉笔者,原先,企业自建算力基础设施可能是一个比较 " 划算 " 的应用算力的形态,但这种模式在现阶段存在了一定弊端。" 首先,企业选择自建算力基础设施的过程中,一次性投入很大,尤其是要能支撑起当前 AI 算力需求的硬件投入是十分庞大的,且周期很长,不能满足企业短时间的业务需求," 赵鸿冰进一步指出," 其次,对于大多数企业而言,业务规模没有达到那么大量的需求,建设好的机房利用率很低,有一些甚至不足 30%,这对于企业而言,相当于‘花大钱,半小事’,十分不划算。"
除此之外,汤雄超也告诉笔者,AI 发展火爆的当下,绝大多数企业管理对算力基础设施有了一定了解,但有不少管理者过于注重字面上性能的指标,缺少对于场景深入的认知," 例如,这个场景下,算力是偶尔被使用,还是需要频繁调取;是偏探索型的业务,还是企业日常核心业务 .... 企业需要针对不同的场景选择合适的算力,才能将‘好钢用在刀刃上’。" 汤雄超指出。
针对此,赵鸿冰与汤雄超都认为,企业需要平衡好可用性与价钱之间的关系,寻找到适合企业长久发展的,最具性价比的算力发展方式。
另一方面,赵鸿冰还补充到,目前选择算力平台负载业务的企业越来越多,这也对算力服务商构建算力调度平台提出了更高的要求," 这些要求中,最为紧要的是高性能通信的要求,只有通信的性能足够强,才能真正实现良好的调度效果。" 赵鸿冰强调。
算力网络作为数字化时代的重要基础设施,其建设和发展对于推动各行业的创新和发展具有至关重要的意义。算力网络正在往 AI 化、分布化方向演进。这个过程中,多节点、多模式、广分布的算力网络将是未来算力网络发展的终极形态。在这种算力模式下,不同的计算存储资源池承担不同的计算任务并相互协同,极大提升算力网络的性能。
当前随着 AI 技术的发展,传统的算力网络已经发展成为 AI 算力网络。而算力网络随着建设进度与使用条件的演进,逐渐发展成为三种算力网络:单集群算力网络、多链路互联多集群算力网络、分布式广域多集群算力网络。单集群算力网络当前已经有诸多成功建设案例,并且已经是诸多基础设施供应商的大部分算力网络。
然而,随着 AI 等技术需求的发展,单集群的算力网络已经无法满足 AI 训练的算力网络需求,分布式算力网络开始逐渐引起重视。分布式多集群算力网络分为两个阶段,其一是 Meta 提出的基于多链路互联适合于同园区建设的分布式多链路互联多集群算力网络,其二是当前诸多厂商提出的跨广域网的多集群算力网络。在这种发展模式下,RoCE 网络(RDMA over Converged Ethernet,一种基于以太网的高性能通信网络)、UEC(超以太网联盟 Universal Ethernet Consortium 技术)等已经成为必不可少的技术需求。
除了网络之外,汤雄超告诉笔者,智算行业发展还离不开算力平台的优化," 通过软硬件协同优化,能更好地激发出以 GPU 为代表的硬件设备的能力,从而以更低成本的芯片,发挥出更接近,甚至超过国际一流芯片水平的能力。" 汤雄超强调。
绿色算力如何实现?
算力需求的增加,在带来了算网建设需求之外,也为数据中心的节能减排提出了更高的要求。
根据 IDC 测算,预计到 2027 年,AI 数据中心容量的复合年增长率 ( CAGR ) 将达到 40.5%,与此同时 AI 数据中心的能源消耗预计将以 44.7% 的 CAGR 增长,到 2027 年达到 146.2 太瓦时 ( TWh ) 。
面对如此之高的能耗与国家层面的碳中和目标,数据中心的绿色化已经出发 " 在路上 " 多年。从技术角度出发,一方面,新的冷媒的应用成为了数据中心降低能耗的主要手段,比如液冷技术就在近几年在数据中心内大火;
另一方面,数据中心选址也成为降低能耗的关键,比如华为就选择 " 挖山 " 建设数据中心,将机房放在山体内,以降低供冷消耗,而海兰信则选择将数据中心建设在水中,通过海水带走多余的热量,一方面能有效降低数据中心能耗,另一方面还能回收相对 " 热品位 " 较高的海水的热量,余热回收会进行副业的赋能与发展。
上海海兰云科技有限公司总经理苏洋在 WAIC 期间与笔者分享了海兰信在海底数据中心方面建设的经验与心得。苏洋表示,将数据中心部署在海底,一方面可以有效的降低数据中心 PUE(能源使用效率),另一方面,还能降低数据中心的故障率。
在节能减排,降低 PUE 方面,据了解,海兰信位于海南陵水的项目,运行 PUE 低至 1.076,较传统陆地数据中心(平均 PUE 1.5)节能 30%-40%,水资源消耗近乎为零。除此之外,苏洋还向笔者介绍了水下数据中心 + 海上风电的 IDC 模式。据了解,海兰信推动的 " 海上风电 + 海底数据中心 " 示范工程,2025 年在上海临港开工,预计 9 月投运,投产后绿电直供率达 97%,建设成本降低 30%。
不仅于此,IDC 服务商还可以通过对散热后的海水进行余热回收,结合周边养鱼业、热能发电等产业,形成完整的产业闭环,助力相关产业的发展。
在降低故障率方面,有数据统计显示,数据中心内部有超过一半的故障是由运维人员操作不当导致的,而位于水下的数据中心日常没有人员进入,通过抗腐蚀密封的系统与冗余的设计,保障设备在深海高压环境下的稳定性。
除了在冷媒与建设位置两个方面实现数据中心的节能减排之外,作为 AI 底层基础设施支撑的数据中心,也享受到了 AI 的 " 反哺 "。数据中心也步入了智能化转型的新阶段。对此,刘洋告诉笔者,目前海兰信已经从多元电力融合 / 调度、AI 运维、海上低空无人机配送备件、无人机监测 IDC 运行情况等方面着手,力图打造一个完全无人化的 " 黑灯 " 数据中心。
随着 AI 大模型向智能体跃迁,算力需求也必将进一步快速增长,进而推动算力行业从 " 规模驱动 " 向 " 效率驱动 " 加速转型。此时,算网建设与绿色算力成为行业破局关键。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)
9 月 11 日 -14 日由钛媒体集团、ITValue 联合主办的 2025 ITValue Summit 数字价值年会将以「AI 落地场景真相」为主题,与新老朋友重聚三亚,并在全年围绕 1 场年度演讲,5 大 ToB 明星 IP 持续内容 " 造血 ",设计 N 个场景的想象空间,打造 1 本《AI 落地场景指南》,一同解决 AI 实际落地应用背后的 "10 大问题 ",探索数字经济时代的变革和机遇。(点击进入了解更多大会报名信息)
评!加入创新场景 50 榜单评选
2025 年度「创新场景 TOP 50」榜单评选征集启动
申报日期:即日起 ~8 月 22 日止
公开投票及专家评审:2025 年 8 月 23 日起 ~8 月 31 日止
申报链接:https://m.tmtpost.com/post/cj50(请使用 PC 端申报,暂不支持手机端)
登录后才可以发布评论哦
打开小程序可以发布评论哦