财联社 04-14
华为云上线“核弹级产品”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,华为公布了 AI 基础设施架构的新进展,推出 CloudMatrix 384 超节点,并已在芜湖数据中心规模上线。《科创板日报》独家了解到,华为云 CloudMatrix384 超节点今年上半年将有数万规模的上线。华为内部人士称其为核弹级的产品,或将彻底终结算力焦虑。未来,CloudMatrix 超节点可以构建超过万片的大集群来提供算力

传统的 AI 服务器通常包括 8 张算力卡,一台服务器就称为一个节点。在服务器内部,这 8 张算力卡之间传输速度很快,但服务器与服务器之间的传输速度则慢得多。伴随大模型浪潮的到来,行业巨头需要连接起成千上万、乃至 10 万计的 GPU 算力卡,这使得互联和通信成了一个大麻烦。

如果能够采用高速通信技术把更多的算力卡融合在一起,成为一个超节点,那么超节点内的算力卡都可以实现高速互联和通信,就能大大提升算力集群的性能。

2024 年 3 月,英伟达率先发布了 NVL72 超节点,可以把 72 张训练卡组成一个超节点,为万亿参数的大型语言模型推理提供了 30 倍实时速度提升。而这次发布的华为 CloudMatrix 384 更进一步,以 384 张昇腾算力卡组成一个超节点,在目前已商用的超节点中单体规模最大。

据悉,华为 CloudMatrix 384 在规模、性能和可靠性上对标英伟达 NVL72,基于 CloudMatrix 的昇腾 AI 云服务,大模型训练作业可稳定运行 40 天,互联带宽断点恢复在 10 秒级别。在互联带宽上,超节点网络交换机采用 6812 个 400G 光模块,实现 2.8Tbps 卡间互联带宽。

《科创板日报》从硅基流动方面了解到,硅基流动已经联合华为云基于 CloudMatrix384 超节点昇腾云服务正式上线 DeepSeek-R1,在保证单用户 20TPS 水平前提下,单卡 Decode 吞吐突破 1920Tokens/s,可比肩 H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。

目前,国产芯片与英伟达芯片在单卡性能方面仍存在一定的差距,但通过多卡集群后差距就会缩小。华为公布的数据显示,CloudMatrix 384 实现算力规模达 300PFlops,相比英伟达 NVL72 的 180PFlops 提升 67%

不过,在单位算力功耗方面,国产芯片仍比英伟达高得多。

一位芯片业内人士对《科创板日报》表示,华为公开的数据没有提到 CloudMatrix 384 的算力功耗比。更高的功耗对于服务器散热要求也更高,机房规模会更大,导致整体成本上升。此外,算力卡数量较多的话,数据需要在多卡之间来回传输,会有更大的时间开销。

" 当然即使在功耗更大的情况下,能做 NVL72 的水平也相当不容易了,体现了华为研发能力很强。" 上述人士称。

国泰海通证券表示,华为云推出 CloudMatrix 384 超节点,单用户 20TPS 前提下,单卡 Decode 吞吐突破 1920Tokens/s,比肩全球主流 GPU 部署性能,超节点机柜在集群推理方面具备优势。随着国内外硬件供应瓶颈逐步缓解,看好国内 AI 进展加速。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 华为云 英伟达 科创板 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论