智东西 03-25
起猛了!Arm推出首个自研CPU,黄仁勋贴大脸发言
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | ZeR0

编辑 | 漠影

属实没想到,卡着全世界移动芯片脖子的 Arm,突然发布了自研 CPU!

智东西 3 月 24 日旧金山现场报道,刚刚,3500 亿颗芯片背后的半导体 IP 巨头 Arm,推出首款由 Arm 自主设计的数据中心 CPU —— Arm AGI CPU。

Arm CEO Rene Haas 展示 AGI CPU 芯片

这是 Arm 发展 35 年来,首次推出对外销售的自研芯片,也是 Arm 全新数据中心芯片产品线的首款产品,标志着 Arm 正式进军数据中心芯片领域,将其高能效架构规模化引入 AI 基础设施。

Arm AGI CPU 专为 AI 智能体基础设施打造,采用台积电 3nm 制程工艺、双 Chiplet 设计,单颗 CPU 集成 136 个 Arm Neoverse V3 高性能核心,配备 2MB L2 缓存,支持 3.7GHz 主频,提供每核心 6GB/s 内存带宽,内存时延低于 100ns,采用 96 通道 PCIe Gen 6 接口,支持 CXL 3 协议,TDP 达 300W。

Arm 将其称作 " 全球最高能效的智能体 CPU",围绕性能、规模、能效三个原则来设计。

英伟达创始人兼 CEO 黄仁勋的巨脸出现在大屏幕上,祝贺 Arm 发布第一款数据中心芯片。

Arm AGI CPU 的单核、系统级芯片、刀片式服务器及机架各层级均实现行业领先的性能表现。

通过更多可用线程与更高单线程处理能力相互叠加,该芯片可实现单机架性能达到 x86 平台的 2 倍以上,每 1GW 的 AI 数据中心算力资本支出节省高达 100 亿美元。

它支持高密度 1U 服务器机箱的风冷部署方案,单机架可支持多达 8160 个计算核心;也支持液冷系统,单机架可实现超过 45000 个核心的部署规模。

Arm CEO Rene Haas 分享说,按其估算,自人类诞生以来,大约共有 1170 亿人生活在这个星球上。而 Arm 芯片累计出货量已超过 3500 亿颗,足足是有史以来人类总数的 3 倍,是所有非 Arm 架构 CPU 累计出货量总和的 7 倍,平均每个全球家庭拥有 160 颗 Arm 芯片。

现在,Arm 的核心业务包括三大块:IP 授权、CSS(计算子系统)方案,以及自主设计的芯片产品。

Arm AGI CPU 现已开放订购,已交到客户手中,正在由客户评估,计划在年底前实现量产。

Arm 与永擎电子、联想、广达电脑、Supermicro 等头部 OEM 厂商及 ODM 厂商展开合作,早期系统现已推出,永擎电子、联想及 Supermicro 已开放商用系统订购,更广泛的商用部署预计将于今年下半年落地。

联想 HR650A V3 2U 机架服务器,配备两颗 Arm AGI CPU

Arm 还披露了后续产品规划,AGI CPU 与 Arm Neoverse CSS 产品路线图将并行推进,计划 2027 年发布 Arm AGI CPU 2 和 CSS V4,未来发布 Arm AGI CPU 3 和 CSS V5,确保所有 Arm 数据中心客户在平台架构与软件兼容性方面实现协同发展。

在会后媒体问答环节,Rene Haas 谈道,研发 AGI CPU 只是 Arm 商业模式的自然延伸,市场需求严重未被满足,中国可能是非常好的市场。

另据 Arm 云 AI 事业部执行副总裁 Mohamed Awad 分享,Arm 也在认真研究 NVLink 等互连技术,已宣布将在未来版本的 CSS 中支持 NVLink。

一、采用简化架构,没有多线程,摆脱 x86 CPU 的额外开销与复杂性

Rene Haas 谈道,智能体的爆炸式增长催生更大的 CPU 需求。智能体本质上是一个工作流,大量工作涉及调度,这正是 CPU 所擅长的工作,是加速器做不了的。

打个比方,加速器负责生成 token,就像推一辆翻斗车,需要有人去搬运那些土,CPU 就是搬运土的设备。

根据 Arm 的估算,数据中心对每 GW 功耗提供的 CPU 算力需求将增长至当前的 4 倍以上,在相同功耗范围内,以前需要 3000 万 CPU 核心,现在需要塞入约 4 倍的 1.2 亿个 CPU 核心。

功耗是宝贵的,所需资本也是宝贵的。试图将如此多的额外 CPU 塞进一个已经被加速器和执行核心工作的 CPU 塞得满满当当的数据中心,是一道难题。

对此,Arm 打造了其首款对外销售的自研芯片—— Arm AGI CPU。

为什么要做这件事?Rene Haas 谈道,随着智能体 AI 走向主流,所有支撑其运转的工作都依赖 CPU,这颗 CPU 必须天生就具备在电池供电下运行的基因。

x86 架构背负着执行开销和对遗留功能的支持负担,选择了聚焦于模块化、支持大量不同市场和小众用例。而 Arm 专注于提升能效、降低延迟。

Arm AGI CPU 从零开始设计,围绕三个原则:性能、规模、能效。

(1)性能

高 IPC(每周期指令数)一直是 Arm 的强项。传统 CPU 有时会试图通过提高主频、进入 Boost 模式来在这一维度上竞争,但提高主频,功耗也随之上升,这些 Boost 模式无法长期持续,也无法在整颗芯片上持续。而 AGI CPU 能提供全时间、可持续的满血性能。

(2)规模

Arm 在核心数量上实现线性扩展,内存和 IO 子系统经过专门设计,与核心高度匹配。

一些传统架构采用多线程。多线程的实质是向同一个核心丢两个任务,但 IO 和带宽并不会因此翻倍,只是把瓶颈转移到了别处,而且 CPU 还必须承担管理这种来回切换的负担,导致性能下降,最终导致进程饥饿。

Arm 反复观察到,数据中心运营商不得不超额配置数据中心 30% 甚至更多,来应对这种非线性扩展的问题。

Arm 以无需这样做为傲。

AGI CPU 与 x86 CPU 运行同一任务的表现对比

(3)能效

Arm 对能效有着近乎偏执的专注。AGI CPU 是专为目标场景打造的,没有任何遗留架构的包袱,不浪费任何一个周期,不存在搁浅的算力,不浪费任何一瓦的功耗。

在实测中,AGI CPU 可提供持续性能,没有因超出功耗预算而导致的性能降频,没有内存或 IO 争用。

上图中,左边的 AGI CPU 和中间的 x86 CPU 柱形均在 SMT(同步多线程)禁用的情况下测得,仅对比了单线程核心表现。

一个常见说法是,多线程能改善性能,带来更好的可扩展性。但如果开启多线程,结果如图中第三个柱形所示,性能下降、现实中每机架大量线程闲置、能效略有提升但不足以改变整体的算法取舍。

Arm 云 AI 事业部执行副总裁 Mohamed Awad 解释说,如果对内存带宽的需求很低,SMT 是合理的,因为可以共享带宽,当一个线程在等待时,可将 CPU 资源让给另一个线程。

但在智能体 AI 场景中,有大量线程需要同时支撑,有昂贵的加速器和昂贵的基础设施在等待,最不希望发生的事情就是分割 I/O 带宽或内存带宽,而是希望将那些 I/O 和内存带宽精确地专用给对应的进程。

" 我们认为,这个最优值约为每秒 4~6GB 的带宽分配给每个核心,这正是我们的设计目标。在这类场景下,不实现 SMT 是更合适的选择,因此我们目前没有采用 SMT 的计划。" 他谈道。

二、详解 AGI CPU 规格:3nm、136 核、3.7GHz 主频

从运行频率到内存及 I/O 架构,Arm AGI CPU 每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的智能体 AI 工作负载。

AGI CPU 采用台积电 3nm 制程工艺,基于标准 Arm Neoverse V3 计算子系统,单颗 CPU 集成 136 个 Arm Neoverse V3 高性能核心,配备 2MB L2 缓存,支持高达 3.7GHz 的主频。

该芯片提供每核心 6GB/s 内存带宽。领先的内存带宽使每个机架能支持更多高效执行的线程。相比之下,x86 CPU 在持续高负载下会因核心争抢资源而导致性能下降。

Arm 将整个系统设计为低延迟架构,使内存访问延迟低于 100 纳秒。

为此,AGI CPU 采用了双 Chiplet 设计,每个 Chiplet 将所有内存和 IO 直接集成其上,无需担忧复杂的 NUMA 域和跨硅片的多次跳转。

在互联方面,Arm AGI CPU 采用 96 通道 PCIe Gen 6 接口,支持 CXL 3 协议,可连接任意加速器,同时支持内存扩展等功能。

其 TDP(热设计功耗)为 300W,每线程独立核心,可在持续负载下提供确定性性能,避免降频与线程闲置。

三、支持风冷和液冷,单机架性能达 x86 系统的 2 倍以上

为加速产品采用,Arm 推出 Arm AGI CPU1OU 双节点参考服务器。该服务器采用符合 OCP(开放计算项目,Open Compute Project)的 DC-MHS 标准规格设计。

Arm 的参考服务器采用 1OU 双节点设计,每台刀片服务器中集成 2 颗 CPU 芯片,并配备独立内存与 I/O,共计 272 个核心。

AGI CPU 支持高密度 1U 服务器机箱的风冷部署方案。下图是一个标准 OCP 风冷机架。这些刀片服务器可在标准风冷 36kW 机架中满配部署,30 台双节点 1OU 刀片服务器可提供总计 8160 个核心。

在该配置下,Arm AGI CPU 可实现单机架性能达到最新 x86 系统的 2 倍以上。

此外,Arm 与 Supermicro 合作推出 200kW 液冷设计方案,可容纳 336 颗 Arm AGI CPU,提供超过 45000 个核心。

Arm 计划向 OCP 社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有 Arm 架构系统的诊断与验证工具等资源。

这些贡献将惠及整个生态系统,对所有基于 Arm 的平台均有裨益。

更多细节将在即将举办的 OCP EMEA 峰会上公布。

四、与 Meta 联合开发,还有多家首发合作伙伴

Meta、OpenAI 高管均来到 Arm Everywhere 大会现场并登台分享。

Meta 作为 Arm AGI CPU 的早期合作伙伴与客户,参与该 CPU 的联合开发,旨在为 Meta 全系应用优化 GW 级规模基础设施,并与 Meta 自研 MTIA 推理加速器协同运行,从而在大规模 AI 系统中实现更高效的编排与调度。

" 这场联姻,我个人认为是双赢的,非常令人振奋,看到从单纯的 IP 授权提供商,走向真正参与构建生产级、生产就绪产品的行列,"Meta 基础设施负责人 Santosh Janardhan 谈道," 我认为最甜蜜的事情需要一些时间,而我们现在就要到了。"

他说 Meta 和 Arm 谈合作,核心理由是想在每瓦内放入更多的核心,但不想在性能上有任何妥协。

现在每天有约 35 亿人使用 Meta 的产品。每一次交互、每一篇帖子、每一个信息流、每一通电话,都建立在 Meta 后端构建的基础设施之上,即定制数据中心、定制硬件和定制芯片。

大约两年半前,Meta 先做了市场调研,看看是否有哪款 CPU 能满足规格要求,结果要么满足了性能、功耗不满足,要么满足了功耗、性能不达标。

而 Arm 提供的可扩展性,让 Meta 能够注入更多算力,做到了优化每瓦性能、每千兆瓦性能、优化 Meta 全平台性能。

双方承诺将围绕 Arm AGI CPU 的多代芯片产品展开长期深度合作。

其他首发合作伙伴包括 Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP 及 SK 电讯。

这些客户将在智能体 CPU 核心应用场景中部署 Arm AGI CPU,覆盖加速器管理、控制平面处理、云与企业级 API、任务与应用托管等领域。

在大会展区,SK 电信旗下 Rebellions 展示了使用 Arm AGI CPU 作为头节点,在同一台服务器中有一批加速器的实例。

Arm 展示了强大的 " 朋友圈 "。超大规模计算服务商、云计算、芯片、内存、网络、软件、系统设计与制造等领域的 50 余家行业龙头企业,均对 Arm 计算平台向芯片领域拓展表示支持。

英伟达、谷歌、微软、亚马逊云科技、博通、Marvell、美光、微软、三星、SK 海力士、台积电等企业的高管一通猛夸,认为 Arm AGI CPU 是整个生态系统发展的重要里程碑,将带来新一代定制化计算能力,进一步释放 Arm 生态系统的潜力,让更多客户能够便捷地获取 Arm 的计算能力,为所有基于 Arm 构建智能未来的合作伙伴创造新的重大机遇。

" 我们很自豪能与 Arm 共同构建这个开放、可扩展、高能效的 AI 未来。加速计算并没有让 CPU 变得无关紧要,它让 CPU 成为不可或缺的合作伙伴。Arm 架构已经成为我们所有平台的基础。" 黄仁勋说,"Arm 的适应性和可定制性,真正使我们能够将 Arm 整合至所有平台之中。"

结语:云端 AI 业务有望成 Arm 最大支柱,未来剑指 1 万亿美元市场

" 全球没有任何一家公司的生态系统,能像我们这样从边缘端到云端贯通服务。"Rene Haas 说。

他预测,云端 AI 业务可能在几年内成为 Arm 最大的业务。

如今数以万计的公司在云端运行其软件于 Arm 之上,依托已向全球数据中心交付的超过 12.5 亿个 Arm Neoverse 核心。这一增长仍在加速。

三十多年来,产业界基于 Arm 计算平台持续创新,在数千亿台设备上实现了可扩展、高能效的计算能力。整个生态系统正寻求大规模部署 Arm 技术的方案。

" 今天标志着 Arm 计算平台迈入全新发展阶段,也成为公司发展的重要里程碑。"Rene Haas 谈道,AI 从根本上重塑了计算的构建与部署,智能体计算正加速这一变革,随着 Arm AGI CPU 芯片推出,Arm 将助力智能体 AI 基础设施实现全球规模化部署。

在审视智能体 AI 发展、CPU 需求增长、高能效 CPU 为数据中心带来的价值后,Arm 预判这在未来将代表约 1000 亿美元的 TAM。

" 将我们在所有市场上积累的成果,从边缘到云端,从毫瓦到千兆瓦,我们有机会在一个 1 万亿美元量级的市场中大展身手。"Rene Haas 说。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

arm 数据中心 ai 芯片 ceo
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论