IT之家 05-24
和硕展示 1177 PFLOP 级 AI 机架系统,搭载 128 颗 AMD MI350X
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 5 月 24 日消息,Tom's Hardware 发现,和硕在台北国际电脑展上展示了一款独特的 AI 机架解决方案。

▲ 图源:Tom's Hardware,下同

据介绍,该系统配备了 128 颗 AMD 新一代 Instinct MI350X GPU,专为高性能 AI 推理与训练设计,其架构比 AMD 官方开发的机架方案领先一代。

该平台将成为和硕研发下一代 AMD Instinct MI450X 处理器 IF64 / IF128 系统的技术验证平台,相关产品预计一年后量产,IT 之家后续将保持关注。

和硕 AS501-4A1 / AS500-4A1 系统采用了 8 组 5U 计算单元,每组包含 1 颗 AMD EPYC 9005 处理器和 4 颗 Instinct MI350X 加速器,采用液冷散热方案以保障高负载下的稳定性能。整机采用 51OU ORV3 规格设计,适配遵循 OCP 开放计算标准的云数据中心(例如 Meta)。

由于 AMD 尚未推出 Infinity Fabric 专用交换机,该系统只是通过 400GbE 网络连接不同 GPU(目前 AMD 加速器最大集群规模为 8 颗)。这与英伟达 GB200 / GB300 NVL72 平台形成对比 —— 后者通过 NVLink 实现 72 颗 GPU 直连。因此,MI350X 系统在扩展性方面尚无法与英伟达方案抗衡。

该系统的核心价值在于:可为 OCP 用户提供即用型 AI 算力平台,同时帮助开发者从软硬件层面掌握多 GPU 系统搭建技术;并为挑战英伟达在机架级 AI 解决方案的垄断地位奠定基础。

根据 AMD 官方参数,和硕 128-GPU 系统的理论峰值性能可达 1,177 PFLOPS(FP4 精度)。每颗 MI350X 搭载 288GB HBM3E 显存,系统总显存达 36.8TB,可支持超越英伟达 Blackwell 架构 GPU 容量上限的巨型 AI 模型。

该系统的主要限制在于依赖以太网的 GPU 间通信方案。由于最大单集群规模为 8 颗 GPU,其更适合 AI 推理或多实例训练场景,而非需要高度同步的大语言模型训练 —— 这正是英伟达 NVL72 系统的优势领域。尽管如此,这仍是当前高性能、大内存 AI 解决方案的重要突破,也为 AMD 下一代 Instinct MI400 系列产品铺平了道路。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

amd ai 和硕 英伟达 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论