快科技 7 月 29 日消息,在 7 月 26 日 -7 月 29 日于上海世博展览馆 H1-A301 举办的 WAIC(世界人工智能大会)上,华为昇腾 384 超节点,即 Atlas 900 A3 SuperPoD 首次展出,成为备受瞩目的 " 镇馆之宝 ",是业界目前最大规模的超节点。
昇腾 384 超节点打破了以 CPU 为中心的冯诺依曼架构,创新提出了对等计算架构,还将总线从服务器内部扩展到整机柜、甚至跨机柜,极大地改变了数据传输和处理的方式。
传统由服务器、存储、网络等设备堆叠而成的集群,在大规模训练时存在资源利用率低、故障频发的问题,严重阻碍 AI 发展。
而昇腾超节点通过高速总线连接多颗 NPU,突破了互联瓶颈,让超节点像一台计算机一样协同工作。
通信带宽飞跃:跨节点通信带宽提升 15 倍,使得数据传输速度大幅加快。
通信时延骤减:通信时延从 2 μ s 降至 0.2 μ s,下降了 10 倍,减少了数据处理等待时间。
超强互联能力:最大可实现 384 颗 NPU 点到点超大带宽互联,并且是业界唯一支持 DeepSeek V/R1 在一个超节点域内即可完成所有专家并行(EP)方案的产品,也是 MoE 模型的最佳训练 / 推理方案,极大提高了模型训练和推理的效率。
昇腾 384 超节点拥有三大优势:
超大带宽:超节点内任意两个 AI 处理器之间通信带宽,相较于传统架构提升 15 倍,超节点内单跳通信时延降低 10 倍,数据交互更流畅。
超低时延:昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力,通过更低时延指令级内存语义通信,可满足大模型训练 / 推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。而且昇腾 384 超节点是业界唯一突破 Decode 时延 15ms 的方案,能满足实时深度思考下的用户体验需求。
超强性能:经过实际测试,在昇腾超节点集群上,LlaMA3 等千亿稠密模型训练性能可达传统集群的 2.5 倍以上;在通信占比更高的 Qwen、DeepSeek 等多模态、MoE 模型上,性能提升更是可以达到 3 倍以上。
登录后才可以发布评论哦
打开小程序可以发布评论哦