智东西 06-13
AMD甩出最猛两代AI芯片!全球首推432GB HBM4,OpenAI CEO现场夸
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | ZeR0

编辑 | 漠影

智东西圣何塞 6 月 12 日报道,今日,年度 AI 盛会 AMD Advancing AI 大会火热开幕。作为全球第二大 AI 芯片供应商,AMD 今日发布其迄今最强 AI 产品阵容——旗舰数据中心 GPU、新一代 AI 软件栈、全新 AI 机架级基础设施、AI 网络,全面展露与英伟达掰手腕的雄心宏图。智东西从大会前排发来一手报道。

xAI 技术团队成员 Xiao Sun、Meta 工程副总裁 Yee Jiun Song、甲骨文云基础设施执行副总裁 Mahesh Thiagarajan、HUMAIN CEO Tareq Amin 相继登台,与 AMD 董事会主席及首席执行官苏姿丰(Lisa Su)博士对谈。

OpenAI 联合创始人兼 CEO Sam Altman 作为惊喜嘉宾压轴登场,透露 OpenAI 团队在 MI300X 和 MI450 上开展了一些工作。他评价说,MI450 的内存架构已为推理做好准备,相信它也会成为出色的训练选择。

此次 AMD 最新发布或预览的重点产品包括:

1、数据中心 AI 芯片 AMD Instinct MI350 系列:采用 3nm 制程,集成了 1850 亿颗晶体管,基于 AMD CDNA 4 架构,搭载 288GB HBM3e 内存,内存带宽达到 8TB/s,单 GPU 可运行 5200 亿个参数的大模型,FP4/FP6 精度下峰值算力达到 20PFLOPS,达到上一代 MI300X 的 4 倍,推理性能达到上一代的 35 倍;跑 DeepSeek R1 模型时,推理吞吐量超过英伟达 B200。

2、数据中心 AI 芯片 AMD Instinct MI400 系列(明年推出):专为大规模训练和分布式推理而设计,将 FP4 精度下峰值算力翻倍提升至 40PFLOPS,FP8 峰值性能达到 20PFLOPS,搭载 432GB HBM4 内存,内存带宽达到 19.6TB/s,每 GPU 横向扩展带宽达到 300GB/s,可实现跨机架和集群的高带宽互连,旨在训练和运行拥有数千亿和万亿级参数的大模型。

相比 MI355X,MI400 系列的性能提升高达 10 倍。

▲相比 MI355X,MI400 系列的 AI 计算性能猛蹿新高

3、全新 AI 软件栈 ROCm 7.0:相比上一代,推理性能提升至 4 倍以上,训练性能可提升至 3 倍,实现对 GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI 等许多主流模型的 Day 0 级支持,可在笔记本电脑和工作站上开发,首度支持 Windows 系统。AMD 还首次推出开发者云。

4、下一代 "Helios"AI 机架级基础设施(明年推出):AMD 首个 AI 机架级解决方案,进一步提升 AI 计算密度和可扩展性,支持多达 72 块 MI400 系列 GPU 紧密耦合,支持 260TB/s 的扩展带宽,支持 UALink,FP4 峰值算力达 2.9EFLOPS。

苏姿丰博士称 Helios 是 " 世界上最好的 AI 机架级解决方案 "。

与采用英伟达下一代 Vera Rubin 芯片的 Oberon 机架相比,Helios AI 机架拥有同等的 GPU 域、纵向扩展带宽,FP4 和 FP8 精度下的性能也大致相同,HBM4 内存容量、内存带宽、横向扩展带宽分别提升 50%。

Helios 集成了 AMD EPYC "Venice" CPU、MI400 系列 GPU 和 Pensando "Vulcano" NIC 网卡。

其中 AMD EPYC "Venice" 服务器 CPU 将采用 2nm 制程,基于 Zen 6 架构,最多 256 核,CPU-to-GPU 带宽翻倍,代际性能提升 70%,内存带宽达到 1.6TB/s。

苏姿丰博士还剧透了将于 2027 年推出的 AMD 下一代机架级解决方案。该方案将集成 EPYC "Verano" CPU、MI500 系列 GPU、Pensando "Vulcano" NIC。

AMD 有三大 AI 战略支柱:领先的计算引擎,开放的生态系统,全栈解决方案。现场,苏姿丰博士展示了 AMD 端到端 AI 计算硬件产品组合。

全新 Instinct MI350 系列、ROCm 7 软件、AMD 开发云、AMD Threadripper 和 Radeon AI 解决方案,都将在今年问世。

苏姿丰博士谈道,AMD 相信开放的生态系统对 AI 未来至关重要,并且是唯一一家致力于硬件、软件和解决方案开放的公司。

一、MI350 系列:内存容量比 B200 多 60%,8 卡峰值 AI 算力达 161PFLOPS

据苏姿丰博士分享,数据中心 AI 加速器 TAM 市场将每年增长 60% 以上,到 2028 年达到 5000 亿美元,预计推理将在未来几年内每年增长 80% 以上,成为 AI 计算的最大驱动力。

AMD 履行 Instinct GPU 路线图承诺,继 2023 年发布 MI300A/X、2024 年推出 MI325 后,MI350 系列今年第三季度上市,下一代 MI400 系列将在明年推出。

目前全球 10 大 AI 公司中,有 7 家正大规模部署 AMD Instinct GPU。

MI350 系列 GPU 是 AMD 当前最先进的生成式 AI 平台。MI350X 和 MI355X 采用相同的计算机体系结构和内存,MI350X 更适用于典型板卡功耗(TBP)较低的风冷,MI355X 的训练吞吐量、效率、功耗更高,更适用于液冷。

和英伟达 B200/GB200 相比,MI355X 的纸面性能同样能打,内存容量多出 60%,FP64/FP32、FP6 精度下的峰值性能翻倍提升,FP16、FP8、FP4 精度下峰值性能相当。

相比上一代 MI300 系列,MI355X 重点对低精度数据类型进行了优化。FP16/BF16 数据类型吞吐量提高到 4k FLOPs/clock/CU,FP8 数据类型吞吐量增加到 8k FLOPs/clock/CU,FP6/FP4 数值格式支持 2 倍的每 CPU FP8 速率。

从表格中可以看到,MI355X 的向量 FP64 峰值性能会比 MI300X 略低,矩阵 FP64 峰值性能几乎只有 MI300X 的一半。

8 卡 MI355X 总共有 2.3TB HBM3e 内存、64TB/s 内存带宽,FP4/FP6 精度下峰值算力可达到 161PFLOPS。

MI350 系列 GPU 采用 UBB8 版型。每个节点搭载 8 块 GPU,通过 153.6GB/s 的 Infinity Fabric 双向链路进行通信。

风冷机架最多可配备 64 个 MI350 系列 GPU、18TB HBM3e。直接液冷机架最多可配备 128 个 MI350 系列 GPU、36TB HBM3E,可提供高达 2.6EFLOPS 的 FP4 性能。

二、1850 亿颗晶体管,多种先进封装混搭

MI350 系列采用增强的模块化 Chiplet 封装,晶体管数量从上一代的 1530 亿颗增加到 1850 亿颗,但核心总数减少。

和前代相似,MI350 系列 GPU 采用了多种 3D 和 2.5D 先进封装技术。

采用台积电 N3P 工艺的 8 个加速器 Complex die(XCD)堆叠在 2 个采用 N6 工艺的 I/O base die(IOD)上。每个 XCD 有 32 个 CU(计算单元)、4MB L2 缓存。AMD 还给每个 XCD 预留了 4 个 CU,这些 CU 会根据需要被禁用。IOD 包含 128 个 HBM3e 通道、256MB Infinity Cache、第四代 Infinity Fabric Link。

中间 Infinity Fabric 先进封装对分带宽提升到 5.5TB/s,通过 Chiplet 集成和统一内存架构实现更高的灵活性和扩展性,并通过降低总线频率和电压来降低非核心功耗。GPU 与其它芯片通信用的 4 代 Infinity Fabric 总线带宽达到 1075GB/s。

相比上一代,MI350 系列增加了更多内存容量和内存带宽。

通过矩阵核心增强和灵活的量化控制,与 MI300X 相比,MI350X 的每 CU 峰值 HBM 读带宽提升多达 50%。

三、跑 DeepSeek R1 提速高达 3 倍,推理成本远低于 B200

推理方面,当运行 Llama 3.1 405B 大模型,执行 AI Agent 与聊天机器人、内容生成、摘要总结、对话式 AI 等广泛 AI 用例时,相比上一代 MI300X,MI355X 能实现 2.6 倍 ~4.2 倍的推理性能提升。

无论是运行 DeepSeek R1、Llama 3 70B 还是 Llama 4 Maverick,MI355X 都能实现 3 倍于 MI300X 的推理性能。

在采用相同 GPU 数量、以 FP4 精度运行 DeepSeek R1 和 Llama 3.1 405B 模型时,相比英伟达 B200 使用自研 TensorRT-LLM 推理引擎,MI355X 使用 SGLang、vLLM 等开源推理框架的推理性能可提升 20%~30%。

运行 Llama 3.1 405B 模型时,MI355X 使用 vLLM 的推理性能,与 GB200 使用 TensorRT-LLM 的性能相媲美。

与 B200 相比,MI355X 每美元可提供多出 40% 的 token,相应也就能提供更低的推理成本。

训练方面,与上一代 MI300X 相比,在 FP8 精度下进行 Llama 3 70B 模型预训练,MI355X 可提供 3.5 倍的吞吐量;在微调 Llama 2 70B 时,MI355X 可实现多达 2.9 倍的加速。

与英伟达 B200、GB200 相比,MI355X 也能取得同等甚至更高的预训练或微调性能。

这意味着理论上 MI355X 能实现更快的训练和推理,缩短从模型开发到部署的时间。

四、ROCm 7:超 3.5 倍推理性能提升,支持桌面端与 Windows

AMD 的开源软件战略正在取得成效。在开源社区帮助下,AMD 软件生态系统发展突飞猛进。

ROCm 软件栈是 AMD 为前沿模型训练和大规模推理而设计的统一架构,在计算密度、内存、带宽、扩展、互连方面提供领先优势。

AMD ROCm 软件生态系统持续优化推理和训练性能,对 Llama、DeepSeek 等主流模型实现 Day 0 级支持,将发布节奏从每季度加快到每两周,持续改善开发者的开箱即用体验。

AMD 还增加了捐赠开源社区的 GPU 数量。PyTorch、VLLM、SGLang、Hugging Face 等公司或组织将免费获得 GPU,这样就能持续集成测试,确保他们研发的软件栈和新功能都能在 AMD 硬件上开箱即用。

通过频繁的更新、先进的数据类型(如 FP4)和新算法(如 FAv3),ROCm 正在实现下一代 AI 性能,同时推动开源框架(如 vLLM 和 SGLang)比封闭替代方案更快地向前发展。

ROCm 7 将于 2025 年第三季度普遍可用,支持 MI350 系列 GPU。AMD 将在 6 月 12 日发布一个公开预览版,官方版本将于 8 月发布。亮点包括:

1、性能提升:与上一代 ROCm 6 版本相比,ROCm 7 拥有超过 3.5 倍的推理能力和 3 倍的训练能力。这源于可用性、性能和对低精度数据类型(如 FP4 和 FP6)支持等方面的进步。通信栈的进一步增强优化了 GPU 利用率和数据移动。

▲ ROCm 的新推理功能

推理方面,与上一代 ROCm 6 对比,ROCm 7 在相同硬件上运行 Llama 3.1 70B、Qwen2-72B、DeepSeek R1 等模型,可实现 3.2~3.8 倍的推理和训练性能。

AMD 在训练方面同样拥抱开源,有自研的开源模型。AMD 组建了一个 AI 科学家团队,该团队用 AMD 的软件和硬件来研发模型(包括文本模型、文生图模型、欧洲模型、多模态模型、游戏 Agent 等),试图实现最佳性能。

▲新训练功能

这里补充个插曲,欧洲模型源自 AMD 之前收购的芬兰 silo AI。silo AI 一直致力于构建支持多种欧洲语言的模型,他们也跟法国明星大模型独角兽 Mistral AI 合作。

相比 ROCm 6,ROCm 7 在相同硬件上训练 Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B 等开源模型,可实现 3~3.1 倍的性能提升。

2、分布式推理:ROCm 7 引入了一种健壮的分布式推理方法,利用与开源生态系统的协作,包括 SGLang、vLLM、llm-d 等开源推理框架。通过采用开放策略,ROCm 7 与这些合作伙伴一起构建、共同开发共享接口和原语,从而在 AMD 平台上实现高效的分布式推理。

英伟达 TensorRT-LLM 工具不支持 DeepSeek R1 FP8 精度,但 vLLM、SGLang 等开源推理框架均可支持。由于 AMD 与这些开源软件紧密合作,MI355X 能取得更好的推理结果,吞吐量比 B200 高出 30%。

3、企业 AI 解决方案:ROCm 企业级 AI 软件栈作为一个全栈 MLOps 平台首次亮相,专为企业环境中的无缝 AI 操作而设计,通过交钥匙工具实现安全、可扩展的 AI,用于微调、合规性、部署和集成。它包括针对行业特定数据进行模型微调的工具,以及与结构化和非结构化工作流的集成,通过 AMD 生态系统内的合作伙伴关系来开发参考应用,如聊天机器人和文档摘要。

4、支持在 Ryzen 笔记本电脑和工作站上的开发:可执行 AI 辅助代码、定制自动化、先进推理、模型微调等任务,将 ROCm 体验扩展到端侧。

AMD Ryzen AI 300 笔记本电脑可本地运行 240 亿个参数的 AI 模型。更专业的 Ryzen AI Max 笔记本电脑,本地可跑 700 亿个参数的模型。Threadripper + Radeon AI 工作站,本地可跑 1280 亿个参数的模型。

ROCm 将支持 In-Box Linux,并首度支持 Windows 操作系统。预计从 2025 年下半年开始,ROCm 将出现在主要的发行版中,将 Windows 定位为一流的、得到全面支持的操作系统,确保家庭和企业设置的可移植性和效率。

AMD 还首次推出开发者云,让开发者能够即时、无障碍地访问 ROCm 和 AMD GPU,实现无缝的 AI 开发和部署。

这个完全托管的环境提供了对 MI300X GPU 的即时访问,无需硬件投资或本地设置,只需 Github 或电子邮件地址即可轻松设置。Docker 容器预装了流行的 AI 软件,最大限度地减少了安装时间,同时给开发人员定制代码的灵活性。

其可扩展的计算选项包括:

小型,1x MI300X GPU (192GB GPU 内存);

大型,8x MI300X GPU (1536GB GPU 内存)。

率先注册的开发者可获得 25 小时的免费积分,通过 ROCm Star 开发者证书等计划可获得最多 50 个小时的额外时间。

五、"Helios"AI 机架明年问世,搭载下一代 3nm AI 网卡

MI350 系列机架基础设施完全基于开放标准,可采用 x86 CPU(5 代 EPYC)、Instinct GPU(MI350 系列)、UEC Scale-Out NIC(AMD Pensando "Pollara" NIC)。

明年,AMD 将推出下一代 AI 机架基础设施解决方案—— Helios AI 机架,将集成 EPYC "Venice" CPU、MI400 系列 GPU、Pensando "Vulcano" NIC。

该架构横向扩展基于超以太网(Ultra Ethernet),纵向扩展基于 UALink(Ultra Accelerator Link),并提供 Fabric Manager 作为 ROCm 生命周期管理的一部分,以支持基础设施自动化。

网络对于构建机架级规模的 AI 系统至关重要。为了扩大网络规模,AMD 去年推出了 Pensando Pollara 400 AI NIC。该 NIC 现可在 MI350 系统里大规模部署。

相比英伟达 ConnectX7、博通 Thor2,AMD Pollara 可实现高出 10%~20% 的 RDMA 性能。

AMD 使用 UEC 标准来推动创新。由于先进 UEC 功能运行在 Pollara 内部,AMD 可将客户的 fabric 成本降低 16%,这个分析是基于 8k GPU 集群。当将这些集群扩展到 32k、64k、128k 时,成本和节省幅度会快速增加。

作为 MI400 系列的一部分,下一代 AMD Pensando "Vulcano" AI NIC 将在 2026 年作为默认配置发货。

Vulcano 采用 3nm 制程,提供 800G 网络吞吐量,每 GPU 的横向扩展带宽是上一代的 8 倍,支持 UAL 和 PCIe Gen6,相比 PCIe Gen6 提供了 2 倍的带宽,可扩展到 100 万块 GPU,并具有完整的软件向前和向后兼容。

这些优势将直接转化为更快的模型训练和更好的推理性能,为客户带来巨大的经济优势。

六、AI 网络:UALink 支持 1024 块 GPU 互连,今年 Q3 推出全新 DPU

AI 模型尺寸每三年增长 1000 倍,不仅需要更多的计算、内存,还需要更多的网络带宽来进行训练和分布式推理。如今训练数据集每 8 个月翻一番。这些需求都超过了芯片的发展速度,芯片晶体管密度每两年才翻一番。

唯一的方法是构建分布式系统创新,实现 AI 芯片的数据中心级扩展。

为了支持大量 GPU 一起工作,AMD 与 100 多家公司一起成立了超以太网联盟(Ultra Ethernet)。超以太网技术是以太网的进化,能扩展至英伟达 Infiniband 的 20 倍、经典以太网的 10 倍。

去年成立的 UALink(Ultra Accelerator Link)联盟旨在扩展将 AI 芯片网络规模,提供更高的带宽、更低的延时。与英伟达 NVLink 相比,UALink 完全开放,由 100 多个联盟成员支持,意味着客户可以使用任何 GPU、任何 CPU 和任何交换机来扩展他们的架构。

UALink 支持多达 1024 个 GPU 连接在一起的能力,是英伟达 NVLink 支持 GPU 规模的 2 倍。

在 GPU 系统连接的前端网络方面,AMD 宣布 Salina 400 DPU 将在今年第三季度推出,目标成为 " 目前市场上性能最好、最安全、可扩展的 AI 前端网络基础设施 "。

Salina 400 DPU 的性能达到上一代的 2 倍,相比英伟达 Bluefield 3 DPU 性能提升 40%。该 DPU 可安全桥接 AI 服务器到企业,提高 AI 服务器性能与网络、安全性、存储卸载,引擎对网络功能的加速可达到 CPU 的 40 倍。

自动化同样不可或缺。ROCm AI 生命周期管理软件,可将客户的部署时间从几个月减少到几天。

ROCm 将在 2026 年推出 Fabric Manager,确保用户可自动部署机架级规模的应用,并自带可靠性、可用性和可维护性。

七、AMD 设定 2030 年新目标:将机架级能效提高 20 倍

能效长期是与 AMD 的路线图和产品战略相一致的指导核心设计原则。

在 2020 年,AMD 通过在短短六年内将 AMD 移动处理器的能效提高 25 倍,超额完成了 25×20 的目标。

如今 AMD 已超越其 30×25 的目标(与 2020 年相比,将加速计算节点的能源效率提高 30 倍),在 AI 训练和高性能计算方面,使用当前配置的 4 个 MI355X GPU 和一个 EPYC 第五代 CPU,实现了 38 倍的节点级能效提升,与 5 年前的系统相比,在相同的性能下,能耗降低了 97%。

现在,AMD 又设定了一个新的 2030 年目标,即在 2024 年的基础上,将机架规模的能源效率提高 20 倍(几乎是之前行业效率的 3 倍),使目前需要超过 275 个机架的典型 AI 模型到 2030 年能够在一个机架内进行训练,同时减少 95% 的运营用电量,将模型训练的碳排放量从约 3000 公吨减少到 100 公吨。

这些预测是基于 AMD 芯片和系统设计路线图以及经能效专家 Jonathan Koomey 博士验证的测量方法。

结合软件和算法的进步,新目标可以使整体能源效率提高 100 倍。

到 2030 年机架规模的 20 倍目标反映了下一个前沿领域:不仅关注芯片,还关注更智能、更高效的系统,从芯片到全机架集成,以满足数据中心级的功率需求。

结语:全栈布局,豪赌 AI 计算未来

AI 基础设施如今已是数据中心 AI 芯片兵家必争之地。从今日释放信息来看,AMD 面向整个机架级基础设施的布局已趋于完整,覆盖从 CPU、GPU、内存、网络、存储、软硬件协同设计到系统的性能与能效优化。

随着顶尖大模型性能增长放缓,产学界不再一味炼大模型,而是更多探索围绕可持续、更经济地扩展 AI 计算的相关创新,这正推动 AI 模型的训练和部署效率持续提升。

除了提升硬件性能与配置外,AI 软件栈和 AI 机架级基础设施的优化,都成为 AMD 面向未来增强 AI 竞争力的重点投入方向。与英伟达不同的是,AMD 认定开源才能推动 AI 以最快速度进步,正坚定拥抱开源,构建一个完全开放的软件生态系统。

在演讲尾声,苏姿丰博士强调:"AI 的未来不会由任何一家公司或在一个封闭的生态系统中建立,它将由整个行业的开放合作来塑造成型。"

作为全球数据中心 AI 芯片市场的第二名,AMD 比第一名的包袱更轻,比后位者吞食市场份额的机会更大。而蓄势待出的 MI400 系列和 "Helios" AI 机架级基础设施,将蕴藏着 AMD 押注下一股 AI 浪潮、释放生成式 AI 和高性能计算的机遇与潜力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai芯片 数据中心 英伟达 ai gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论