脑极体 昨天
AI云玩家洗牌时刻,百度智能云凭什么六连冠?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型热潮下,代入企业 IT/AI 工程师的视角却会发现,AI 落地处处都是坑:

AI 在企业内部应用的场景多了之后,一到业务峰值,用户并发涌上来,要是调度系统不给力、加速引擎没提效、KVCache 优化不到位,服务一旦卡壳,不仅用户体验崩了,还会带来业务损失;

智能体当道," 数字员工 " 大量上岗,相互协作带来了大规模推理服务需求,但问题也随之而来,要么延迟超了,要么吞吐上不去,技术人员不得不熬夜做优化。

这些焦头烂额的场景,正是当前企业 AI 落地过程中的真实写照。AI Infra 的能力支撑,变得愈发重要。

8 月的 2025 百度云智大会上,产业对 AI Infra 的诉求有了明确的回应:百度智能云正式发布新一代 AI 基础设施,以百度百舸 5.0 为核心打造超节点云实例等关键能力,构建 " 云智一体、智能优先 " 的技术底座。

正如百度集团执行副总裁、百度智能云事业群总裁沈抖所言:企业对基础设施的需求已经从 " 降本增效 " 转向 " 直接创造价值 ",AI 云不再是企业的 " 成本中心 ",而会成为新型的利润中心。

断言背后,百度智能云在 AI 云市场竞争中高歌猛进,65% 央企选择、连续六年公有云市场第一……无论是超大规模算力调度,还是复杂产业场景落地,百度智能云都已经形成了技术突破与产业实践的双重护城河,成为行业公认的头部玩家。

但整个云市场的竞争仍在日趋白热化,云厂商纷纷将 AI 软硬件作为拉动增长的核心引擎,导致技术路径五花八门,解决方案层出不穷,让不少企业用户患上了选择困难症。

到底该如何选,才能真正吃透 AI Infra 的技术红利呢?答案恐怕还要回到产业的真实需求中去寻找。

风起云涌的 AI 浪潮中,很多企业都想尽快用上 AI 提升竞争力,但现实里却处处受限:芯片性能短期内难有大幅突破,自己建 AI 基础设施要花大价钱,而且企业自身大多缺乏搭建软硬件搭建的能力。

这时候,AI 云就成了最优解。企业不用改造自己现有的系统,通过云端即可高效调用 AI 所需的算力、网络等核心能力。

不过,面对五花八门的 AI 云,企业到底该看什么?业内共识是,企业落地大模型时,最容易被三个地方卡住脖子:算力瓶颈、互联瓶颈、稳定性与可靠性挑战。

算力是企业应用 AI 的第一道关卡。

大模型训练的算力消耗就很惊人了,以 OpenAI 为例,今年底上线的 GPU 数量就超过 100 万块。而智能体的爆发,也使得 token 使用量激增,带动推理算力需求上行。

比如创下 MPV 纪录的罗永浩数字人直播间,前台讲解的两个数字人主播背后,助播智能体负责烘托气氛,剧本智能体撰写双人对话脚本,不同智能体按职责动态调整。每个智能体都要靠专门的 AI 模型驱动,这些模型同时跑起来,瞬间爆发的高并发算力需求,传统集群的固定资源分配模式完全跟不上节奏。

所以,现在 AI Infra 的首要任务就是打破算力瓶颈,让大模型 " 装得下、跑得起 "。

攻克算力瓶颈,需要释放硬件性能,这时另一个卡脖子的问题又冒了出来,那就是:互联瓶颈。

现在企业建 AI 集群,主要走两条路:Scale Out(横向扩展)与 Scale Up(纵向扩展)。其中,Scale Up 超节点架构凭借单节点高密度算力集成的特性,支撑 DeepSeek 这类单体算力消耗不大的模型,成为企业应用 AI 的热门选择。但在实际落地中,用 Scale Up 替换 Scale Out,解决 EP 并行下的 AlltoAll 通信问题,需要构建适配数十块芯片在 Scale Up 域内实现高速全互联的网络架构,研发与之匹配的高效通信协议,并且对上层模型服务进行对应的适配优化,通过这样的 " 技术组合拳 ",才能充分发挥 Scale Up 网络,解决互联瓶颈,释放高密度算力集群的效能,支撑 DeepSeek 等模型在企业级 AI 场景中的高效部署与运行。

无论 Scale Out 还是与 Scale Up,都绕不开一个规律:Scaling law(扩展法则),这就带来第三个难题:系统的稳定性与可靠性挑战与日俱增。

模型性能随参数规模增长的需求仍在主导着 AI Infra 的演进,更直接影响着 MoE(混合专家模型)等前沿架构的落地诉求。像 DeepSeek 那样的 MoE 模型(混合专家模型),得调动几千上万个专家节点一起工作,再加上现在越来越多人用强化学习、搞训推一体,这些动态弹性高并发的诉求,都对系统稳定性与可靠性带来冲击。

稳定性与可靠性问题无法解决,AI 服务就容易出现卡顿、延迟。这种情况下,哪怕场景需求明确、应用价值很高,AI 也很难真正落地。当下阶段,单纯依赖硬件层面的优化已经不够了,必须让软件(比如推理系统)和硬件深度配合,才能增强集群韧性,保证系统稳定运行。更重要的是,深入产业场景还会发现,上述瓶颈并非是孤立存在的。

AI 落地,难关重重,企业需要在诸多彼此牵制的因素中寻找解法,自然头痛不已。

而对于云厂商来说,企业的痛点既是挑战,也是机遇。要赢得这个庞大且迅速增长的市场,必须帮企业真问题,仅靠单一技术显然无法破局,唯有对 AI Infra 来一场彻底的系统性创新,才能在日趋激烈的竞争中撕开突破口。

任何脱离企业实际应用需求的技术探索,都难以形成稳定可信赖的服务价值。企业当下所需要的 AI Infra,早已不再是简单的算力供给,还要解决网络、稳定、模型适配等一系列复杂难题。唯有如此,才能真正用好 AI。

沈抖就在云智大会上直言:这几年我们一直在思考,AI 云怎样才能真正做到智能优先?答案是算力、模型、数据和工程能力。基于这一判断,百度智能云推出了全新升级的百度百舸 5.0。

当然了,云厂商说得再好,不如企业用户现身说法。我们还是从一个个行业和企业的切实变化,来看看新一代基础设施如何精准回应产业落地 AI 的核心痛点。

第一个需求,就是让 AI 跑起来。

最直观的就是具身智能机器人。无论是 WAIC 大会现场,还是世界人形机器人运动会的赛场上,跑动的机器人都贡献了不少出圈的名场面。让机器人跑起来得办好两件事:一是智商高,二就是会学习。

解决机器人的智商问题,机器人的 " 大脑 "(决策大模型)与 " 小脑 "(运动控制小模型)得经过高效训练,这就需要庞大算力。百度智能云的昆仑芯超节点,将 64 张全栈自研昆仑芯集成于单节点,实现单卡性能提升 95%、单实例推理能力提升 8 倍,让算力无忧。

云智大会上,百度百舸还正式上线了昆仑芯超节点公有云实例,现在具身智能企业只需调用云实例,几分钟就能跑万亿级开源模型。让机器人的大脑(世界模型)和眼睛(视觉语言动作模型 VLA)训得快,大幅缩短了机器人的落地周期。

二是会学习,机器人要到真实世界中接受地面摩擦力变化、障碍物突发等不确定性挑战,这要求机器人能适时调整动作策略,应对复杂条件,这就需要强化学习的试错-反馈-优化机制,来赋予机器人自主学习的灵魂,不仅对算力要求高,还需要强化学习框架,来提高具身智能企业在多模态数据处理等方面的工程能力。

百度智能云通过深度工程创新,打造了适配具身智能的百舸强化学习框架。在训练、推理、存储等环节,将吞吐推至极限,更通过系统性协同实现全局效率最优,把强化学习效率拉到了行业新高度。

北京人形机器人创新中心等 " 国家队 " 选择与百度智能云合作,正是因为在百舸的支撑下,机器人的身心都有了坚实的承载底座,加速具身智能从实验室走向家庭、工厂。

下一个需求,就是跑得快。

对金融、汽车、AIGC 影视等行业来说,模型 " 跑得动 " 只是基础," 跑得快 " 才直接决定商业价值。

如今许多金融机构都接入了 DeepSeek 等开源大模型,应用在智能客服、智能投顾、文书写作等领域,但 MoE 模型的专家并行需要高频通信,推理时流量波动、超长文本处理需要节点协同,若网络带宽不足、延迟过高,会直接导致 " 算力等数据 " 的延迟,十分影响业务人员和用户的对话体验。

除此之外,超大规模集群的算力堆了不少,但训练效率就是上不去的问题经常出现。正如前面提到的新能源车企的智驾模型训练问题,要解决网络延迟、终端导致的训练故障,提升计算效率与资源利用率至关重要。让 AI 跑得快,就得打通算力和模型的通信卡点。为此,百舸 5.0 针对性升级 VPC、RDMA、XPU-Link 三大网络,构建了低延迟、高可靠的通信底座,让算力跑上了高速路。

百度百舸 200Gbps 的高速 VPC 网络,能够支持巨型帧传输,可以显著提升推理阶段 KV Cache 传输、训练阶段 Checkpoint 读写这些核心环节的计算效率。单集群十万卡 RDMA 互联网络,可以把端到端的延迟压缩到 4 微秒。面对 MoE 模型海量、高频、延迟敏感的 All-to-All 通信的瓶颈,百度自研的 XPU-Link 协议把卡间带宽提升 8 倍,把延迟做到国内最低,让专家并行的通信更快,最大程度地释放芯片的计算性能。

无论是垂直行业训练专有大模型,还是各行各业上线实时推理的 DeepSeek,只有跑在高速通信的网络上,都能更快更高效。

第三个也是企业落地 AI 的底线考验:跑得稳。

2025 年产业 AI 的一个主要变化,就是 Deepseek 带火了 MoE 架构,计算任务也从预训练转向了后训练、推理环节,而推理的工作负载会随着流量规模、上下文长度的变化而变化。各行业使用 AI 的热情高涨,新场景不断涌现,进一步增加了推理的动态和复杂性。

如沈抖所说,这时候单靠堆卡是不够的,需要做系统性的优化。百度智能云最新推出了百舸 5.0 推理系统,就是为此而来,通过软硬协同优化,为 AI 业务场景提供高效支撑。

今年上半年,百度百舸上线了领先业界的 PD 分离能力,以大规模推理的效率,而如今面对大规模、复杂 MoE 的场景,百度百舸 5.0 将分离做得更彻底,还推出了 VIT 分离(视觉和语言),以及 Attention-MLP 分离,通过深度解耦这些计算模式不同的模块,让整个系统更加高效,实现了数十倍的吞吐提升,从而更好地提升 MoE 时代的推理性能。

针对多智能体协作时 KV Cache 增多的问题,百舸 5.0 KV Cache 系统还可以实时感知集群全局状态,从 HBM 灵活迁移至内存、SSD 乃至远程分布式文件系统中,实现缓存智能管理,让存储资源的弹性适配,从而提升整体系统的调度效率与资源利用率。

在律师处理法律合同、政务部门处理超长文档等场景中,百舸 5.0 的自适应能力,能够根据输入文本长度动态调整张量、序列和专家并行策略,让 MoE 模型推理效率显著提升。128K 超长文本 3 秒内出首字,能减少等待时间,显著提升用户的使用感受。在相同成本下,能处理更多请求,模型能完成的任务量更多了。

还有像 3D 建模平台 VAST 这样的企业,如果平台的百万设计师同时在线调用模型,那么百舸 5.0 的智能调度,通过数据并行、专家并行双重负载均衡,优化推理效率,即使是大规模高并发的实时访问场景,也能为设计师们源源不断的创作灵感保驾护航。

可以发现,百舸 5.0 的四大升级并非孤立技术,而是围绕 " 企业如何用好 AI" 来构建系统性解决方案。

这也印证了产业实践中,算力瓶颈、网络瓶颈与稳定性与可靠性挑战三大关卡彼此制约的复杂难题,必须靠组合拳才能击穿。举个例子,业内也有云厂商推出了吸引眼球的技术,如高密度超节点,但并没有搭好云实例,企业看得到但用不上,最后还是卡在上不了手的死胡同。

让企业真正靠 AI Infra 把 AI 用起来,百舸 5.0 的系统性方案,正是百度智能云轰向 AI 落地关卡的一组组合拳。

一位油气领域专家曾向我们感慨:智能化一旦启动,就不会停止。这是行业一线从业者的真实体感,而综合数据也印证了这一点。

IDC 发布的 《2025 年第一季度全球服务器市场跟踪报告》显示,2025 年第一季度服务器销量大幅上涨,其中 GPU 需求成为推动增长的核心因素。随着 AI 大模型的广泛应用,企业对 GPU 加速服务器与云端算力的依赖显著加强,原本依赖本地数据中心的组织,正在将 AI 相关工作负载逐步迁移至云端;而已经部署云架构的企业,也在持续将 AI 能力嵌入业务流程与数据系统,带动对 GPU 与云基础设施的长期需求。

对各行各业来说,智能化是一场漫长的长跑,那么, AI 云市场,谁能陪企业跑得更远、更久?

一份报告揭开了行业秘密:8 月 18 日 IDC 发布的 IDC 报告显示,2024 年中国 AI 公有云服务市场规模达 195.9 亿元,百度智能云以 24.6% 的市场份额稳居第一,连续六年、累计十次蝉联中国 AI 公有云市场冠军。

百度智能云能成为 65% 央企的 AI 创新合作伙伴,背后的秘密或许就藏在累计十次、六连冠的长期主义中。毫无疑问,百度智能云是一个深耕 AI 云赛道的耐力型选手,技术能力和产业耐力都得到了时间的检验。这意味着,在政企落地 AI 的智能化长跑中,选择百度智能云一同陪跑,会得到以下助力:

一是多年沉淀的产业级技术护城河。从云智大会披露的进展来看,昆仑芯超节点云实例、百舸训推升级、强化学习框架等产品、新技术,不只是为了炫技,更紧贴产业需求。这种技术竞争力,来自百度智能云多年来押注产业智能化的积累。早在 2015 年百度正式对外提供云服务时,便强调云的智能属性。2019 年,百度智能云将 " 云 +AI" 确立为核心战略,提出 " 云智一体、深入产业 ",进一步明确了 AI 云的发展方向。

能深度理解 AI 业务,并具备持续迭代的技术韧性,这在公有云市场当中是一种十分稀缺的能力,也为产业客户带来了长期信心。

特别是对于大型政企来说,业务关系国计民生,在布局 AI 时,每一次选择都关乎产业升级的方向与节奏。中国邮政储蓄银行依托百舸完成 GPU/CPU 算力重组,提升混合芯片集群利用率;长安汽车也牵手百度智能云建设 AI 基础设施,进一步加速智能驾驶模型迭代。这些企业本质是选择一个战略伙伴,作为智能化路上的定心丸和压舱石,支撑自身转型的全周期需求。

二是 300+ 行业场景验证的 AI 落地方法论。产业 AI 的本质是 " 产业为先 ",技术落地必须贴合业务场景的节奏,无法一蹴而就。百度智能云在服务政企的过程中,积累了覆盖金融(招行)、能源(中石化)、汽车(长安汽车)、AIGC(生数科技)、具身智能(人形机器人创新中心)的 300+ 场景经验,既能为行业龙头提供超大规模算力调度,也能为创业公司提供精准场景突破,与各个产品同频共进,精准赋能,才能让技术真正成为智能升级的助推器。

智能化征程中,每一个人与企业都是跑者。而 AI Infra 作为底层根基,牵一发而动全身,一旦在企业中扎下根来,就很难被轻易替代。正因如此,当下的 AI 云市场不是温和竞逐,而是抢算力、拼方案的白热化厮杀,本质是跟时间赛跑,抢夺企业 AI 陪跑者的身位。

谁能抢先接住企业落地 AI 的真需求,相当于拿下了未来的市场。百度智能云累计十次、连续六年蝉联中国 AI 公有云冠军,就是佐证。把技术突破转化成贴合用户的智能化陪跑能力,不仅抢到了与 65% 央企共同探索 AI 创新的入场券,更是为自己筑起了别人难以快速赶上的领先优势。

目前 AI 技术仍在快速迭代,Infra 层面仍存挑战,这也提醒我们,唯有以技术破局、为产业筑牢底座,云厂商才能赢下这场 AI 决战。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百度智能云 基础设施 百度 百度云
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论