5 月 16 日 , 华为云 AI 峰会在北京召开 , 华为云副总裁黄瑾发表主题演讲 , 介绍了更多 CloudMatrix 384 超节点技术优势与细节。他指出 , 随着大模型训练和推理对算力需求的爆炸式增长 , 传统计算架构已难以支撑 AI 技术的代际跃迁 , 超节点架构的诞生不仅是技术的突破 , 更是以工程化创新开辟 AI 产业的新路径。华为云 CloudMatrix 384 超节点具备 MoE 亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势 , 以系统架构创新重新定义新一代 AI 基础设施。
华为云副总裁黄瑾
重新定义 AI基础设施架构 , 开辟算力新纪元
当前 , 大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练 , 到现在 MoE、长序列、多模态大模型都在 AI 集群上训练的演进过程。AI 算力的瓶颈 , 从单卡算力的瓶颈到单机内总线带宽的瓶颈 , 再到现在集群间通信带宽的瓶颈 , 需求增长了 1 万倍。
然而过去的 8 年里 , 单卡硬件的算力增长了 40 倍 , 但是节点内的总线带宽只增长了 9 倍 , 跨节点的网络带宽只增长了 4 倍 , 这使得集群网络通信成为当前大模型训练和推理的最大挑战。
黄瑾表示 , 面对这些挑战 , 华为云创新性的推出了采用全对等互联架构的 CloudMatrix 384 超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构 , 直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器 , 最高提供 300Pflops 的算力规模 , 比业界同类产品领先 67%。
解码六大优势,CloudMatrix 384 超节点重构 AI 算力架构
目前 , 基于 CloudMatrix 的超节点集群已经在芜湖、贵安、内蒙规模上线 , 黄瑾进一步深入解读了六大技术创新点 :
MoE亲和架构,从 " 小作坊 " 到 " 超级工厂 "。在传统架构下 ,MoE 模型训练容易因通信延迟导致算力浪费 , 而 CloudMatrix 384 超节点的分布式推理平台可以说是专为 MoE 大模型而生。黄瑾指出 , 对比一卡多专家的 " 小作坊模式 ", 超节点更像 " 大工厂模式 ", 通过高速互联总线 , 能够实现一卡一专家高效分布式推理 , 单卡的 MoE 计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户 , 基于华为云昇腾 AI 云服务部署 DeepSeek 模型的创新应用 , 例如在智能助手、智能客服、互联网搜索、内容创作等各种场景落地。
以网强算,双层网络破解 " 数据堵车 "。当 AI 算力走向规模化部署 , 单点的芯片性能不再是制约算力发展的唯一变量 , 如何由点及面地激活算力矩阵的共振效应 , 也是破解 AI 时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一 , 黄瑾介绍 , 传统网络像拥堵的城市道路 ,CloudMatrix 384 则构建了 AI 专属高架桥 , 通过 MatrixLink 服务将单层网络升级为两层高速网络 , 一层是超节点内部的 ScaleUp 总线网络 , 确保超节点内 384 卡全对等高速无阻塞互联 , 卡间超大带宽 2.8T, 纳秒级时延 ; 另一层是跨超节点间的 ScaleOut 网络 , 可支持微秒级时延 , 资源弹性扩展 ; 同时 , 基于全局拓扑感知的智能调度算法 , 保障客户任务长稳运行。
以存强算,弹性内存改写"算存绑定"。 华为云首创了 EMS 弹性内存存储 , 打破传统 GPU 算力与显存绑定的关键障碍 , 通过内存池化技术 , 实现显存和算力解绑。一方面 , 用 EMS 替代 NPU 中的显存 , 可使得首 Token 时延降低 , 最高降幅可达 80%; 另一方面 , 当 NPU 的显存不足时 ,EMS 独立扩容 , 不必再通过堆 NPU 以获得更多内存。同时 ,EMS 还支持算力卸载 , 这也使得系统吞吐量提升 , 有的场景达 100% 的提升。总之 , 这一技术创新大幅提升了资源利用率、性能和吞吐量。
长稳可靠,故障自愈的 "AI 医生 "。随着模型训练需求的不断接入 , 大集群的运维难度大、复杂性高的问题日益凸显。对此 , 华为云开发了昇腾云脑运维 "1-3-10" 标准 , 即 1 分钟感知、3 分钟定界、10 分钟内恢复。通过 5 层压测、静默故障感知技术 , 昇腾云脑可将硬件故障感知率从 40% 提升至 90%。同时 , 覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景 , 这一全栈故障知识库能够覆盖 95% 常见问题以实现故障快速定界 ; 在恢复机制上 ,3 层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。
朝推夜训,算力资源 " 错峰用电 "。在大模型训练中 , 提升算力利用率 , 避免算力闲置也是企业关心的重点之一。CloudMatrix 384 超节点通过 " 训推共池 "" 灵活调度 " 两大关键技术实现朝推夜训 , 白天进行模型推理 , 晚上闲时进行模型训练 , 算力资源利用率可提升 30% 以上。
即开即用," 算力水电 " 普惠模式。为助力客户更好地专注业务模型开发 , 华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局 , 支持百 TB 级的带宽互联 ,10 毫秒时延圈覆盖全国 19 个城市群 , 让客户能够第一时间享受到即开即用的 AI 算力资源。同时 , 华为云拥有专业的超节点运维团队 , 在为客户免去繁琐的管理和维护的同时 , 保障资源的稳定运行。
做好智能世界云底座和使能器 , 加速行业智能跃迁
如今 AI 已经成为最有影响力的通用技术 , 如何将技术价值转化为应用成果 , 成为千行百业面临的核心课题。华为云超节点创新系统架构的背后 , 是华为云坚持 " 昇腾云服务支持百模千态 , 盘古大模型重塑千行万业 " 的战略。
黄瑾强调 , 一直以来华为云持续推动昇腾 AI 云服务全面升级 , 通过打磨昇腾云的训练、推理的性能、可靠性和性价比 , 为中国乃至全球客户提供好用、易用的 AI 算力云服务。现已全面适配了 DeepSeek 在内的 160 多个大模型 , 以云服务的方式 , 协助客户进行模型的开发 , 训练 , 托管和应用。昇腾 AI 云服务上线以来 , 面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业 , 加速行业智能化应用的快速落地。
在充满突破和创新的 AI 发展过程中 , 每一个阶段都会产生大量的新技术、新模式 , 企业唯有抓住 AI 时代机遇 , 才能抢占发展先机。黄瑾表示 , 面向智能世界 , 华为云致力于做好行业数字化的 " 云底座 " 和 " 使能器 ", 坚定打造 AI 算力底座 , 以安全、稳定、高质量、持续创新的 AI 云服务 , 赋能千行万业应用创新 , 携手伙伴、客户加速行业智能跃迁。
登录后才可以发布评论哦
打开小程序可以发布评论哦