NVIDIA 计划凭借下一代 Feynman 芯片主导推理堆栈,因为该公司可以将 LPU 单元集成到架构中。
乍看之下,NVIDIA 就 Groq 的 LPU 单元达成的 IP 授权协议似乎只是小打小闹,毕竟收购规模和涉及的营收数额都相当庞大。但实际上,NVIDIA 的目标是通过 LPU 在推理领域占据领先地位,我们此前已对此进行了深入报道。至于 NVIDIA 将如何整合 LPU,目前已有多种方案;
不过,根据 GPU 专家 AGF 的观点,LPU 单元或许会通过台积电的混合键合技术堆叠在下一代 Feynman GPU 上。
英伟达要堵死 ASIC 的道路
专家认为,该方案的实现方式可能类似于 AMD 在 X3D CPU 上的做法,即利用台积电的 SoIC 混合键合技术将 3D V-Cache 芯片集成到主计算芯片上。AGF 指出,考虑到 SRAM 的扩展性有限,将 SRAM 集成到单芯片上可能并非 Feynman GPU 的正确选择,因为采用先进工艺节点会浪费高端硅片,并大幅增加每片晶圆的成本。AGF 认为,NVIDIA 会将 LPU 单元堆叠到 Feynman 计算芯片上。

AGF 表示,Groq LPU 模块将于 2028 年首次出现在 Feynman(Rubin 后世代)。
确定性、编译器驱动的数据流,配合静态低延迟调度和低批处理场景中的高模型浮点利用率(MFU),将在有利工作负载下为费曼带来巨大的推理性能提升。
但单片芯片的 SRAM 缩放停滞非常严苛:位元单元面积从 N5(~0.021 μm²)到 N3E 几乎没有变化,甚至 N2 也只能达到 ~0.0175 μm²,密度为 ~38 Mb/mm²。这是一种非常昂贵的晶圆面积使用。
NVIDIA Feynman 在台积电 A16 上,配备背面供电 + 全 GAA 将面临 SRAM 的门槛和成本压力。
那么解决方案是什么?
很简单,就是制作分离的 SRAM 芯片,并将它们叠放在主计算芯片(也就是 AMD X3D)上。背面电源传输简化了顶部的高密度混合粘结,使 3D 叠加垂直集成 SRAM 更实用,即避免前端布线的噩梦。
所以预计 Feynman 核心会在 A16 上混合逻辑 / 计算芯片,实现最大密度 / 孔径 + 堆叠 SRAM,在更便宜 / 成熟的节点上实现极高封装带宽且不会带来巨大密度损失。
这保留了 HBM 作为容量(训练 / 预填充),而 SRAM 堆栈则修复低延迟解码 MFU,这正是 Pouladian 的 " 作弊码 "。
这似乎让厂商放弃了所有 ASIC 成功的机会 ....
现在看来,这种方案似乎合情合理。方案中,像 A16(1.6nm)这样的芯片将用于主 Feynman 芯片,其中包含计算模块(张量单元、控制逻辑等),而独立的 LPU 芯片则包含大型 SRAM 存储体。此外,为了将这些芯片连接起来,台积电的混合键合技术至关重要,因为它能够实现宽接口,并且与封装外存储器相比,每比特能耗更低。更重要的是,由于 A16 采用背面供电设计,正面可以用于垂直 SRAM 连接,从而确保低延迟解码响应。
然而,这种技术也存在一些问题,例如 NVIDIA 将如何应对散热限制,因为在高计算密度的工艺流程中堆叠芯片本身就是一个挑战。而且,对于专注于持续吞吐量的 LPU 来说,这可能会造成瓶颈。更重要的是,这种方法也会极大地增加执行层面的影响,因为 LPU 依赖于固定的执行顺序,这自然会在确定性和灵活性之间造成冲突。
即使 NVIDIA 能够解决硬件层面的限制,主要问题仍然在于 CUDA 在 LPU 式执行模式下的行为,因为它需要显式的内存分配,而 CUDA 内核的设计初衷是面向硬件抽象。对于 NVIDIA 来说,将 SRAM 集成到 AI 架构中并非易事,因为这需要精湛的工程技术才能确保 LPU-GPU 环境得到充分优化。然而,如果 NVIDIA 想要在推理领域保持领先地位,这或许是它愿意付出的代价。
Groq 的 LPU 架构是关键
过去几个月,人工智能行业的计算需求发生了翻天覆地的变化。像 OpenAI、Meta、Google 等公司在致力于训练前沿模型的同时,也在寻求构建强大的推理堆栈,因为这才是大多数超大规模数据中心的主要盈利点。
谷歌发布 Ironwood TPU 时,业界将其吹捧为专注于推理的利器,而这款 ASIC 芯片也被誉为英伟达的替代品,这主要是因为当时有说法称 Jensen 尚未推出一款在推理吞吐量方面占据主导地位的解决方案。我们有 Rubin CPX,但我稍后会讨论它。谈到推理,计算需求会发生显著变化,因为在训练过程中,业界更看重吞吐量而非延迟和高运算强度,这也是为什么现代加速器都配备了 HBM 和海量张量核心的原因。
由于超大规模数据中心正转向推理,它们现在需要快速、可预测且前馈式的执行引擎,因为响应延迟是主要瓶颈。为了实现快速计算,NVIDIA 等公司针对大规模上下文推理(预填充和通用推理)等工作负载推出了 Rubin CPX,而 Google 则宣称其 TPU 方案具有更高的能效。然而,在解码方面,可供选择的方案并不多。
解码是指 Transformer 模型推理过程中的词元生成阶段,它作为人工智能工作负载分类的关键环节,其重要性日益凸显。解码需要确定性和低延迟,而考虑到推理环境中使用 HBM 带来的限制(延迟和功耗),Groq 的独特之处在于它使用了 SRAM(静态随机存取存储器)。既然我已经阐明了为什么需要重新审视推理计算,现在是时候讨论 LPU 了。
LPU 是 Groq 前 CEO Jonathan Ross 的杰作,顺便一提,他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而闻名,因此我们可以肯定,NVIDIA 正在内部获得一项重要的资产。LPU 是 Groq 针对推理类工作负载的解决方案,该公司区别于其他公司的关键在于其两大核心优势。首先是确定性执行和片上 SRAM 作为主要权重存储。这是 Groq 通过确保可预测性来提升速度的方法。
Groq 此前已展示了两款领先的解决方案:GroqChip 和基于合作伙伴的 GroqCard。根据官方文件披露的信息,这些芯片配备 230MB 片上 SRAM,片上内存带宽高达 80TB/s。SRAM 的使用是 LPU 的关键优势之一,因为它能显著降低延迟。与 HBM 相比,考虑到 DRAM 访问和内存控制器队列带来的延迟,SRAM 的优势显而易见。片上 SRAM 使 Groq 能够实现数十 TB/s 的内部带宽,从而提供领先的吞吐量。

SRAM 还使 Groq 能够提供一个节能平台,因为访问 SRAM 所需的每比特能量显著降低,并消除了 PHY 开销。此外,在解码过程中,LPU 显著降低了每个令牌的能耗,考虑到解码工作负载是内存密集型的,这一点至关重要。这是 LPU 的架构方面,虽然这看似重要,但这只是 LPU 性能的一部分。另一个关键因素是利用确定性周期,即通过编译时调度来消除内核间的时间差异。
编译时调度确保解码流水线中不存在 " 延迟 ",这是一个至关重要的因素,因为它能够实现流水线的完美利用,从而相对于现代加速器实现更高的吞吐量。总而言之,LPU 完全专用于满足超大规模数据中心所需的推理功能,但业界目前忽略了一个关键问题。LPU 是真实有效的推理硬件,但它们高度专业化,尚未成为主流的默认平台,而这正是 NVIDIA 的用武之地。

除了上述 AGF 的方法,将 LPU 集成到 NVIDIA 产品中的另一种方法是将其作为机架级推理系统(类似于 Rubin CPX)的一部分,并搭配网络基础设施。这样一来,GPU 可以处理预填充 / 长上下文信息,而 LPU 则专注于解码,这意味着在推理任务方面,NVIDIA 已经解决了所有问题。这有望将 LPU 从实验性选项转变为标准推理方法,从而确保其在超大规模数据中心得到广泛应用。
毫无疑问,这笔交易标志着英伟达在推进其产品组合方面取得的最大成就之一,因为所有迹象都表明,推理将是英伟达接下来要讨论的选项,而 LPU 将成为该公司在人工智能工作负载领域战略的核心部分。
为了规避反垄断风险,选择授权
在日勤,CNBC 率先报道了这一消息,声称英伟达将以 200 亿美元的巨额交易 " 收购 "Groq 公司,这将是詹森 · 黄仁勋迄今为止最大的一笔收购。此消息在业内引发轩然大波,有人认为监管调查会阻碍这笔交易,也有人断言 Groq 的末日已至。然而,随后 Groq 在其官网上发布官方声明,称已与英伟达达成 " 非独家许可协议 ",授予这家人工智能巨头使用其推理技术的权利。
" 我们计划将 Groq 的低延迟处理器集成到 NVIDIA AI Factory 架构中,从而扩展该平台,使其能够服务于更广泛的 AI 推理和实时工作负载。虽然我们正在吸纳优秀人才并购买 Groq 的知识产权许可,但我们不会收购 Groq 这家公司。" 英伟达首席执行官黄仁勋在一封内部邮件中表示
因此,在 Groq 发表声明后,至少从表面上看,合并的说法不攻自破。现在看来,这一系列事件颇为耐人寻味,尤其是考虑到这笔交易距离被视为全面收购只差一步之遥,那就是官方披露中未提及此事。
这是英伟达典型的 " 反向收购 " 策略。如果有人不知道这意味着什么,这是微软的惯用伎俩。早在 2024 年,这家科技巨头就宣布以 6.53 亿美元收购 Inflection,其中包括 Mustafa Suleyman 和 Karén Simonya 等人加入微软,后者曾是微软人工智能战略的先锋。
反向收购是指一家公司从一家初创公司挖走关键人才,并保留 " 最基本的 " 公司架构,从而避免被认定为合并。现在看来,詹森似乎也采用了类似的策略来规避美国联邦贸易委员会(FTC)的调查。他将与 Groq 的交易包装成 " 非独家许可协议 ",从而使英伟达实际上游离于《哈特 - 斯科特 - 罗迪诺反垄断改进法案》(HSR 法案)的管辖范围之外。值得注意的是,Groq 提到 GroqCloud 将继续运营,但仅以 " 精简架构 " 的形式存在。
事情的经过是这样的:英伟达斥资 200 亿美元收购了 Groq 的人才和知识产权,并成功避开了监管调查,从而在短短几天内就完成了交易。而谈到他们现在拥有的硬件资源,这才是英伟达收购 Groq 这笔交易中最引人注目的部分。
大家怎么看这桩收购的后续走势啊?


登录后才可以发布评论哦
打开小程序可以发布评论哦