智东西 前天
AI云狂飙持续,百度亮出了全栈 AI Infra底牌
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 漠影

算力,正成为大模型时代名符其实的 " 新石油 "。

上周三,国际能源署发布的报告为这一观点提供了有力佐证。2025 年,全球数据中心的投资预计将达到约 5800 亿美元,远超今年 5400 亿美元的全球石油供应投资额。这一 400 亿美元的投资差额,折射出市场对 AI 发展潜力的认可。

越来越多的企业开始意识到,算力不仅是支撑 AI 模型训练和推理的基础资源,更是推动产业创新与智能化升级的核心要素。传统的基础设施体系在模型规模爆炸式增长、推理需求多样化以及实时性要求更高的趋势下,已逐渐显露瓶颈。伴随应用场景的不断丰富与技术体系的快速迭代,以算力为核心的 AI Infra(AI 基础设施)体系必须顺势升级。

正是在这一大背景下,百度在刚刚落幕的百度世界大会上,系统展示了其在 AI Infra 上的最新探索。

从今年上半年点亮的昆仑芯 P800 三万卡集群,到支撑万卡集群实现 98% 有效训练时长的百舸平台,再到会上最新发布的昆仑芯最新一代产品、天池 256/ 天池 512 超节点。百度已构建起一个覆盖芯片、集群到平台的全栈式、规模化 AI Infra 解决方案。

在竞争日益激烈的 AI 云战场上,谁能率先构建起稳定、可扩展、成本可控的全栈 AI Infra 体系,谁就有望在未来的竞争中占据更主动的战略高地。而百度在本届百度世界大会展示的全栈 AI Infra 能力,或许正是其在下一轮 AI 云竞争中亮出的底牌。

一、AI 云建设热潮持续,全栈能力成关键竞争力

构建覆盖芯片、集群、平台等领域的全栈 AI Infra 能力,正在成为 AI 行业头部玩家竞相投入的核心方向。

在海外市场,这一趋势尤为明显。谷歌依托长期发展的 TPU(张量处理单元),形成了以 TPU 为核心的高度定制化 AI 算力体系,使其在大模型训练与推理服务中形成独特的技术优势。

亚马逊 AWS 多年来持续押注自研芯片,并与其云服务深度绑定,以实现更高能效比和更低成本。

模型厂商 OpenAI 的动作同样具有标志性,他们联手博通自研 AI 加速器,还布局独立 AI 云服务业务。这不仅是为了提升未来模型迭代效率,更是为了减少对外部算力供应链的依赖,确保核心竞争力的可持续性。

与此同时,作为全球 AI 产业链最关键的算力供应商之一,英伟达也在不断构建自己的 AI 能力版图。除了不断提升 GPU 性能外,英伟达还深入高速互联等关键领域,并向云端延伸,推出 NIM 推理微服务等。英伟达越来越像一家完整的 AI 基础设施公司,而不仅仅是芯片供应商。

这些案例共同指向一个明确趋势:AI 云竞争的本质正在从单一算力供应,转向对底层硬件、系统架构、编译优化、算力调度、模型服务等全链路的深度整合。在这一全栈体系中,芯片提供底层算力支撑,并需与云端的系统设计、模型框架和软件生态保持紧密协同。上下层在架构、调度与优化上的合力,才能让 AI 云体系在性能、资源利用和扩展性上实现更优的整体表现。

视角转向国内,百度是国内较早开启自研 AI 芯片的厂商之一。早在 2011 年,昆仑芯团队便启动了 FPGA AI 加速器项目,是国内最早源⾃真实业务场景的 AI 芯⽚研发团队,2018 年,百度正式启动昆仑芯研发,并完成了 3 次迭代。

不仅如此,百度还是国内最早提出 AI 云概念的厂商之一。早在 2020 年,百度智能云便开启了 " 云智一体 " 战略,将云计算和 AI 紧密融合。根据 IDC 今年发布的《中国 AI 公有云服务市场份额,2024》报告,去年,中国 AI 公有云服务市场规模达 195.9 亿元,百度智能云以 24.6% 的市场份额位居第一,连续六年、累计十次蝉联中国 AI 公有云市场冠军。

凭借从芯片、集群到平台的全栈布局,百度不仅在算力供给上建立了坚实优势,也在 AI 云服务中形成了独特的竞争壁垒。

二、新架构新应用层出不穷,百度 AI Infra 能力如何持续演进?

然而,在快速变化的 AI 领域,没有玩家能在固守现有技术和模式的情况下持续领先。随着新模型架构和应用不断涌现,算力需求和系统复杂性呈指数级增长,传统技术和算力体系很容易被更灵活、高效、全栈化的竞争者超越。

百度世界大会分论坛上,昆仑芯认为在大模型 " 新应用 " 的背景下,越来越多 " 非计算任务 " 正被 " 计算化 ",很多 AI Agent 或应用就是把以前非计算的任务用计算实现。

当前涌现的大量新应用正在改变传统任务的执行方式,从 AI 编程、智能搜索,到具备规划能力 Al Agent, 过去依赖人工决策与操作的任务,如今正逐步交由机器自动完成。以往用户需耗费大量时间检索、比较与判断,而现在仅需 Agent 消耗数万至十万级 Token 即可自动实现。随着 Agent 商业化的加速,应用生态规模迅速扩大,最直观的体现是 Token 消耗量的激增。

未来,Token 将像水电一样,作为不可或缺的基础要素,深度融入社会生活的各个领域。百度智能云混合云部总经理杜海认为,未来的算力需求短期内可能达到现有推理算力几十倍甚至百倍的规模。面对这些挑战,国产 AI Infra 该如何升级?

芯片层面,在百度世界大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖亮出了昆仑芯未来五年的路线图。今年,昆仑芯已实现单集群三万卡点亮,并发布了百度天池 32 超节点和 64 超节点;2026 年 -2027 年,两款昆仑芯新品和百度天池 256 超节点、百度天池 512 超节点都将陆续上市。

上述硬件的优化方向,与当前 AI 模型的演进路径高度契合。本次发布的昆仑芯新品重点面向大规模推理以及超大规模多模态训练与推理场景进行优化,而这些正是当下大模型发展的关键方向。天池超节点则专门针对大规模训推场景。

天池 256 超节点相比其今年 4 月发布的超节点方案,卡间互联总带宽提升 4 倍,主流大模型推理任务单卡 tokens 吞吐提升 3.5 倍。天池 512 超节点最高支持 512 卡极速互联,卡间互联总带宽提升 1 倍,单节点可完成万亿参数模型训练。

然而,光凭硬件本身,也支撑大规模 AI 训练需求,配套的计算平台、供应链和团队都需要同步优化,以满足新架构、新应用带来的新需求。

百度已经在打造三万卡集群的过程中,深刻把握到万卡级 AI Infra 的复杂性。杜海称,这一系统性工程不仅要解决由服务器、光模块到机房节奏在内的超大规模供应链协同,还需依托研发、运维和调度体系的全链路协作与技术优化,确保集群能力的线性提升、稳定性和故障自愈能力。

百度智能云 AI 计算首席科学家王雁鹏认为,训练和推理的差异,使硬件稳定性成为首要挑战。推理可以容忍单机故障,但训练往往涉及上万块 GPU 的同步计算。王雁鹏指出:" 如果百卡训练的有效计算时间是 99%,扩展到万卡,有效训练时间可能归零。" 为此,百度智能云建立了全面的故障检测体系,通过通信库实现对慢节点和故障卡的精准定位。

从百卡扩展到千卡乃至万卡,网络拓扑、任务调度和通信策略都需要相应变化。百度智能云的思路是结合自身芯片和网络特点,进行软硬件协同优化。他们提出了 XPU 驱动的通信模式,实现跳过 CPU 的高效 XPU 直通通信,并通过多平面高算出的网络设计和优化的通信策略,实现万卡带宽有效性达 95%,几乎接近理想线性扩展。

随着 AI 模型架构不断迭代,国产 AI 芯片的生态也面临更高要求。英伟达显卡的 CUDA 生态支持百种模型架构,形成了国产算力追赶路上难以绕开的 " 护城河 "。王雁鹏认为,国产算力若要在大模型时代迎头赶上,必须建立高泛化算子体系,在小规模验证中确保大规模训练的精度和性能,最终保证算子覆盖度和正确性。

此外,随着上千亿、万亿参数的 MoE 模型出现,以及多模态模型(视觉、语音等)的引入,系统通信占比上升、显存压力增大、负载高度异构。面对这些挑战,百度智能云团队通过分层存储等方式,让国产集群运行 MoE 模型的效率接近 GPU 集群。而异构并行通信策略则将多模态模型算力利用率提升至 50% 左右,与传统的稠密模型类似。

百度在百舸平台上将上述一整套能力进行了整合。用户可以通过百舸平台以标准化、产品化的方式,使用国产优质算力和上述各种技术手段,建设高效的基础设施、提升模型训练效果,并加速推理性能。

三、自研算力基座支撑文心训推,获行业头部企业采用

这套全栈 AI Infra 能力,已经广泛应用在百度的内部业务中。经过十余年技术积累和三次迭代,百度的国产化算力底座如今不仅能稳定支持搜索、推荐等百度核心业务,还逐步成为承载百度⼤模型训练与推理的核心算力引擎。

例如,Qianfan-VL-3B、Qianfan-VL-8B、Qianfan-VL-70B 这三款主打 OCR 全场景识别和复杂版面文档理解两大能力的 SOTA 级模型,正是在 5000 卡的昆仑芯集群上,利用百度的全栈 AI Infra 能力训练而来的。支持 " 无限时长 " 生成的百度蒸汽机视频生成模型,是全球首个中文音视频一体化生成模型,发布时在权威榜单 VBench-12V 上位列全球第一。这一模型,是在 6000 卡的昆仑芯集群上炼成的。

百度蒸汽机生成了今年百度世界大会的开场视频

除了支持百度内部业务之外,百度智能云已经基于百舸平台和昆仑芯,对外规模化提供算力服务。基于 " 百度百舸 AI 计算平台 + 昆仑芯 P800" 构建的国产万卡集群,率先成为首家通过信通院《面向大规模智算服务集群的稳定运行能力要求》测评的国产万卡级别集群,且在基础设施、集群调度、模型训练保障等核心测评维度上,获得最高等级 " 五星级 "。

在算力规模化应用的过程中,硬件是基础,但远非全部。百度百舸作为软硬一体、全栈优化的计算平台,通过整合 AI 基础设施、资源管理、工程与模型训推加速等关键服务,帮助企业解决 " 有硬件却用不好 " 的痛点,充分释放算力的潜能,将其转化为真实场景中的生产力。

百舸平台不仅适用于昆仑芯,也能帮助广大企业根据自身需求打造稳定、可靠的算力底座。分论坛上,北京人形机器人创新中心大模型负责人鞠笑竹分享了团队在百舸平台上开发机器人大模型的经历。双方合作最初围绕数据展开,随后扩展到 VLM 等多类大模型的训练,覆盖数据与算力的全链条支持。在构建并开源 RoboMind 数据集的过程中,创新中心基于百舸平台完成了模型训练与真机部署测试,形成 " 数据—训练—验证 " 的完整闭环。

同时,百舸的算力环境不仅加速了 " 慧思开物具身智能平台 " 的研发,还支撑创新中心成功训练了 72B 的开源具身多模态大模型 Pelican-VL 1.0,整体训练效率得到显著提升。Pelican-VL 1.0 可帮助人形机器人更好地感知空间与时间,实现自然的具身交互,并在训练过程中实现自我纠错与持续迭代,在多项基准测试中达到国际领先水平。

鞠笑竹表示,Pelican-VL 在基线基础上性能提升 20.3%,超过同级别开源模型 10.6%,成为开源具身性能最好的大脑模型。

Pelican-VL 开源链接:pelican-vl.github.io

从某种意义上来说,百舸平台让创新中心可以专注科学探索本身,而无需担忧算力基础设施这一老大难问题。百度智能云也是首家全面适配 RDT、π0 和 GR00T N1.5 三大主流开源具身 VLA 模型的云厂商。通过针对性的训推工程优化,世界模型的推理性能可提升超过 36%、训练加速 20% 以上;视觉语言模型(VLM)训练则提超 40%。

除此之外,百度智能云还帮助招商银行、国家电网、中国钢研、同济大学、北京大学等头部机构与企业实现国产算力的规模化部署,成为众多⾏业智能化转型的底层算力支撑。

结语:上下游整合成大势所趋,百度抢先交卷全栈方案

在百度世界大会的分论坛上,百度智能云混合云部总经理杜海分享了一个颇为有趣且深刻的观察:与传统 CPU 时代 " 层层标准化、相互独立 " 的技术结构不同,当下的大模型体系从芯片、云基础设施、框架到模型与应用之间存在极强的耦合度——不同厂商的芯片在设计模式、指令和调用方式上差异巨大,要想充分发挥性能,算子、框架乃至模型本身都必须深度感知底层拓扑。

这意味着 AI 产业正在形成从应用到模型、框架、云基础设施再到芯片的端到端垂直结构,各领域的头部公司为了掌控能力和效率,不可避免地走向上下游深度整合。在新一轮 AI 云竞争全面打响之时,全栈 AI Infra 能力的建设,不再是一种可选项,而是面向未来竞争的 " 必答题 "。百度,已经率先交出了自己的答卷。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百度 芯片 云服务 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论