2025 年以来,AI 领域迎来了一场关键转折—— AI 智能体正式 " 破圈 ",从实验室的精密算法走向千行百业的生产一线,今年也因此被业界公认为 "AI 智能体元年 "。伴随着 AI 应用的井喷式增长,算力需求的底层逻辑正在悄然改变:如果说过去的算力焦点是模型训练的 " 厚积 ",那么现在,AI 推理的 " 薄发 " 正成为驱动算力增长的核心引擎。
对于企业而言,AI 大模型的价值不再停留在 " 能做什么 ",而是 " 能做好什么、能低成本做好什么 "。如何在推理环节实现 " 降本、提质、增效 " 的三重突破,打通商业落地的 " 最后一公里 ",成为所有从业者共同的考题。就在这个关键节点,华为全联接大会 2025 期间的昇腾 AI 人工智能产业峰会上,一则重磅消息为行业带来了新答案。
会上,昇腾联合数十家行业伙伴集体亮相,将大规模专家并行(大 EP)的六大行业实践成果推向台前。从运营商的 AItoC 业务拓展到政务的高效便民服务,从教育的个性化学习推荐到金融的风险实时预警……这一技术方案已深度渗透 50 余家客户的核心场景,用实打实的应用效果展现着推理系统突破带来的 " 极致体验 "。
这场集体发布的意义远超技术展示本身,它标志着中国主流行业的头部客户,正借助昇腾率先打造的大 EP 方案,在 " 推理体验 " 与 " 算力成本 " 的天平上找到精准平衡点。当 AI 大模型不再是实验室里的 " 展品 ",而是能稳定、高效、经济地服务于生产场景时,中国 AI 产业已然找到 AI 规模化落地、可持续发展的新范式。
AI 大模型落地难,大 EP 适配 MoE 推理带来 " 最优解 "
在全球 AI 大模型产业化进程中,推理环节作为技术价值转化的核心,直接决定着 AI 红利能否真正落地。如果说模型训练是 " 练兵千日 ",那推理就是 " 用兵一时 "。尤其在 DeepSeek 推动 MoE 模型成为主流后,这一环节的重要性愈发凸显,同时也暴露出传统部署模式与新技术路线的适配矛盾。
比如在单机部署时,专家权重的高占用率让内存不堪重负,直接限制了并发处理能力;采用 PD 混合部署,又容易出现资源分配失衡,不仅造成算力浪费,还会导致整体性能衰减;更关键的是,MoE 模型的动态路由机制常引发 " 专家热点不均 ",部分专家承担过量任务陷入瓶颈,其余专家却处于闲置状态,形成算力资源的结构性浪费。
这些架构层面的问题,最终转化为企业可感知的实操痛点,集中表现为 " 推不动、推得慢、推得贵 "。不少企业即便采购大量算力芯片堆叠,仍难以应对长文本处理、多轮对话等复杂推理需求,硬件资源无法形成有效支撑;输出结果的首 Token 时延居高不下,严重影响用户交互体验;单位时间内有效处理的 Token 数量不足,导致每 Token 成本高企——直接削弱了企业在 "Token 经济时代 " 下的商业竞争力。
面对 MoE 模型带来的推理瓶颈,昇腾在业界率先探索出以大 EP 架构创新为核心,结合超节点硬件及昇腾基础加速软件的 " 一体化破局 " 方案,成为适配 MoE 推理的 " 最优解 "。
大 EP 架构的核心逻辑,是将 MoE 模型的多个路由专家分散部署于多卡环境,通过动态调度实现算力资源的精准匹配。这既保留了 MoE 模型 " 专业分工 " 的优势,又解决了 " 协同混乱 " 的问题,让每卡算力得到充分利用,进而提升系统吞吐率,并降低时延。
而大 EP 架构的高效运转,离不开多机多卡的超节点的支撑,因为大 EP 的分布式特性对设备间通信要求极高,需要大带宽、低时延的互联能力保障专家间的数据传输效率。以昇腾 384 超节点为例,其依托华为自研的灵衢互联协议,将通信带宽提升 15 倍,单跳通信时延降至 200 纳秒以内,为专家协同搭建起 " 通信高速公路 "。
在实际部署中,大 EP+ 昇腾 384 超节点可实现 DeepSeek 模型 "1 卡 1 专家 " 的配置,容纳 256 个路由专家、32 个共享专家及 96 个冗余专家,既保障了系统稳定性,又实现了算力资源的高效利用。
六大行业优秀实践齐发,推动昇腾大 EP 成为 " 事实标准 "
从此次发布的运营商、政务、教育、金融、大模型、电力六大行业优秀实践中也可以看到,依托强大垂直整合能力的昇腾大 EP 方案,从先行先试到规模落地,已成为 MoE 模型推理部署的 " 事实标准 ",正为各行各业企业带来显著的 " 降本、提质、增效 " 价值。
在电信行业,随着智能客服、通话助手、5G 消息智能体等 AItoC 应用的规模化普及,运营商面临着用户请求量激增带来的推理性能瓶颈,同时高昂的调用成本也制约着业务的持续扩张。如何在保证低时延服务体验的前提下,提升吞吐能力并控制成本,成为行业核心挑战。
对此,三大运营商基于自研 AI 或大模型平台部署昇腾大 EP 方案,构建高性能推理 API 服务。方案落地后,不仅实现吞吐提升 4 倍、时延降低 50%,更将相关调用成本降低超 50%,有力支撑了移动 AI 时代新兴业务的高速发展,推动用户体验革新升级。
在教育领域,高校在服务海量师生的 AI 助教、科研辅助等场景中,常面临长文本输入输出的处理需求,传统推理方案存在吞吐性能不足的问题,难以高效支撑全校范围内 AI 教学、论文速读、编程辅助等全流程应用,影响师生科研与学习效率。
国内某顶尖 985 高校引入昇腾大 EP 方案赋能教学科研 AI 场景,将 2k 长文本输入输出场景的吞吐性能提升 3 倍以上,成功满足了全校数万师生多样化的 AI 需求,让全校师生及科研人员得以 " 以 AI 的方式打开 AI 时代 ",加速教学科研创新进程。
金融行业作为数字化、智能化的先行者,在银行业信贷审批、风险管理、证券业财报点评、智能投顾等众多场景中,对 AI 推理的实时性、准确性和规模化能力要求极高。然而,传统方案难以在多场景下同时实现推理性能的质变,制约了效率提升与服务面扩大。
本次发布中,多家金融机构在此次发布中集中展示了昇腾大 EP 方案的应用成果。以中国邮政储蓄银行为例,其在携手昇腾构建千卡训推算力集群、打造 " 邮智 " 大模型并开展 230 个 AI 场景创新应用后,进一步部署昇腾大 EP 方案,实现 3 倍吞吐性能提升。这一突破加速了 " 邮智 " 大模型的规模化应用,深度赋能智能客服、审贷助手、后训练数据合成等业务场景,全面推进邮储银行面向 AI 时代的数智化转型。
数据显示,截至目前,昇腾大 EP 方案已深入上述六大行业的 50 余家客户核心场景,以 " 一份投入,多份产出 " 的高效模式最大化成本效益,助力企业 AI 大模型从实验室稳步走向生产场景,攀登新一轮数智化发展高地。
技术垂直整合 + 行业场景深耕," 中国方案 " 加速 AI 落地
从以上昇腾大 EP 的行业实践与发展逻辑中,可清晰看到中国 AI 产业的差异化发展路径,即在单卡算力与全球顶尖水平存在差距、企业 AI 投资预算相对有限的约束下,中国产业界通过 " 技术垂直整合 + 行业场景深耕 " 的组合策略,走出了一条适配自身需求的 AI 落地之路。
从技术层面看,当国际巨头更多聚焦于 " 提升单卡算力 " 以解决推理难题时,中国企业选择从 " 系统层面优化资源效率 " 切入,通过大 EP+ 超节点创新,将现有软硬件资源的协同效能最大化,以 " 群体优势 " 弥补 " 个体差距 ",与中国算力产业发展特点实现了 " 同频共振 "。
从产业层面看,中国 AI 产业的核心需求是 " 千行百业的规模化落地 ",而非局限于特定场景的 "AGI 梦 "。这意味着技术方案必须兼顾 " 性能 " 与 " 成本 ",既要满足复杂场景的推理需求,又要控制企业的投入门槛。昇腾大 EP 方案通过 " 一份投入,多份产出 ",实现了 " 低成本高性能 " 的目标,有力支撑了 " 人工智能+" 的蓬勃发展。
而面向未来发展,这种差异化路径的价值将进一步凸显。随着 MoE 模型向 " 更大规模、更多模态 " 迭代,单卡算力的提升将面临物理极限与成本瓶颈,而垂直整合、系统创新的思路将具备更长期的生命力,持续树立中国 AI 产业在全球竞争中的重要差异化优势。
一言以蔽之,昇腾大 EP 行业应用的规模爆发,不仅解决了 AI 推理的 " 最后一公里 " 难题,更印证了中国 AI 产业 " 在约束中创新 " 的发展逻辑——不依赖单一硬件的性能突破,而是通过系统层面的整合与优化,将技术创新与产业需求深度绑定,最终实现 AI 在千行百业的落地生根。这种路径不仅为中国 AI 产业的规模化发展提供了坚实支撑,也为全球 AI 产业的多元化发展提供了 " 中国方案 "!
登录后才可以发布评论哦
打开小程序可以发布评论哦