驱动之家 昨天
领先英伟达AMD一代!华为揭秘384颗自研芯片方案更多细节:美国怕是必然
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 5 月 17 日消息,美国封杀华为芯片从某种程度来说,其实是对后者技术的认可,而他们确实也有硬实力做支撑。

之前华为推出了 AI 算力集群解决方案 CloudMatrix 384,虽然外行看起来没有什么厉害的,但国外投行直言,这领先于英伟达和 AMD 目前市场上的产品一代。

按照华为的说法,CloudMatrix 384 基于 384 颗昇腾芯片构建,通过全互连拓扑架构实现芯片间高效协同,可提供高达 300 PFLOPs 的密集 BF16 算力,接近达到英伟达 GB200 NVL72 系统的两倍。

此外,CM384 在内存容量和带宽方面同样占据优势,总内存容量超出英伟达方案 3.6 倍,内存带宽也达到 2.1 倍,为大规模 AI 训练和推理提供了更高效的硬件支持。

尽管单颗昇腾芯片性能约为英伟达 Blackwell 架构 GPU 的三分之一,但华为通过规模化系统设计,成功实现整体算力跃升,并在超大规模模型训练、实时推理等场景中展现更强竞争力。

在昨日的华为云 AI 峰会上,华为云副总裁黄瑾介绍了更多 CloudMatrix 384 超节点技术优势与细节,其指出随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑 AI 技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟 AI 产业的新路径。

当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在 MoE、长序列、多模态大模型都在 AI 集群上训练的演进过程。

AI 算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了 1 万倍。

然而过去的 8 年里,单卡硬件的算力增长了 40 倍,但是节点内的总线带宽只增长了 9 倍,跨节点的网络带宽只增长了 4 倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示,面对这些挑战,华为云推出了采用全对等互联架构的 CloudMatrix 384 超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器,最高提供 300Pflops 的算力规模,比业界同类产品领先 67%。

目前,基于 CloudMatrix 的超节点集群已经在芜湖、贵安、内蒙规模上线,而华为云超节点创新系统架构的背后,是华为云坚持 " 昇腾云服务支持百模千态,盘古大模型重塑千行万业 " 的战略。

" 一直以来华为云持续推动昇腾 AI 云服务全面升级,通过打磨昇腾云的训练、推理的性能、可靠性和性价比,为中国乃至全球客户提供好用、易用的 AI 算力云服务。现已全面适配了 DeepSeek 在内的 160 多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 华为 芯片 ai 华为云
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论