对于 GPU 加速器和互连制造商而言,人工智能推理最终可能会采用一种全新的方法——以至于英伟达在几代之后最终制造的设备根本不能再被称为 GPU 了。
以英伟达目前推出的数据中心级 GPU 加速器为例,几乎可以得出这样的结论。这些加速器看起来越来越不像图形处理单元,而更像是向量和张量引擎、缓存和互连结构的复杂集合,用于执行相对低精度的数学运算,而这些运算正是 GenAI 和其他类型的机器学习以及有时 HPC 的基础。
与 Groq 的这笔交易在很多方面都显得十分奇特。首先,Groq 的投资者当初为何要出售股份,这一点值得深思。正如我们在分析 AI 模型制造商 OpenAI 与 AI 硬件初创公司 Cerebras Systems(该公司与 Groq 几乎同时成立于 2015 年,当时 AI 机器学习正开始蓬勃发展)之间价值 100 亿美元的交易时所指出的那样,令人费解的是,在低延迟、高吞吐量的 AI 推理至关重要,而 Groq 又是少数几家能够与英伟达 ( Nvidia ) 在该领域一较高下的供应商之一的情况下,Groq 为何会在此时出售?Cerebras 的 CS-2 晶圆级计算引擎、谷歌的 TPU 以及亚马逊网络服务 ( AWS ) 的 Trainium(由于 Trainium 可以同时进行 AI 训练和推理,因此现在几乎没人再提起 Inferentia 了)是仅有的几款真正获得市场认可的 AI XPU,而英伟达的 GPU 在训练和推理领域都占据主导地位,AMD 则凭借其数据中心 GPU 占据了一席之地。
从 Groq 的角度来看,现在正是推出英伟达 GPU 替代方案的最佳时机。英伟达的 GPU 虽然功能强大,但价格昂贵。此次收购交易中,英伟达获得了 Groq 的学习处理单元 ( LPU ) 技术授权,并挖走了 Groq 的大部分核心工程师,包括联合创始人 Jonathan Ross 和首席运营官 Sunny Madra,总价高达 200 亿美元。对于一家此前仅完成五轮融资、总计 17.5 亿美元的公司来说,这笔交易可谓天价。该公司在 2025 年 9 月完成 E 轮融资(7.5 亿美元)后,估值仅为 69 亿美元。Ross 还曾获得沙特阿拉伯承诺的 15 亿美元投资,用于在达曼建设一座大型 GroqCloud 数据中心,但据我们所知,该项目至今尚未启动。这将是 Groq 剩余部分将要追求的业务,因为它基本上是 GroqCloud 服务、大量知识产权,而且据我们所知,并没有针对未来 LPU 或 GroqWare 产品线的计划。
收购通常兼具防御和进攻的双重目的,罗斯主导开发的完全调度编译器——这使得 LPU 与罗斯在谷歌最初开发的 TPU 截然不同——是英伟达绝对不想看到落入对手之手的关键资产。英特尔需要收购人工智能的未来,尤其是基于推理的未来。如果它像传闻所说的那样对 SambaNova 感兴趣,那么它也同样对 Groq 和 Cerebras 感兴趣。但英特尔资金短缺,而且美国政府如今也成为了它的投资者,时刻关注着它。AMD 也曾是 Groq 的潜在收购方,如果 Groq 的软件栈确实与众不同,那么理论上 AMD 仍然有权授权该软件栈以及任何它认为有用的硬件。
是的,我们知道。这真是太搞笑了。
沙特阿拉伯承诺为 GroqCloud 在沙漠中建立前哨站投资 15 亿美元,但这与实际合同,甚至支票或电汇都截然不同。此外,如今 15 亿美元对于人工智能硬件而言也算不上巨额资金,毕竟 OpenAI 已经承诺投入约 30 吉瓦的容量用于人工智能硬件。根据不同的报价和具体情况,每吉瓦的成本在 350 亿美元到 500 亿美元之间。如果按照 Sam Altman 的容量规划愿景,30 吉瓦的容量需要 1.5 万亿美元。Groq 与沙特阿拉伯的合作承诺比 Cerebras 刚刚与 OpenAI 签署的协议规模小 6.7 倍,比 OpenAI 计划构建的规模还要小三个数量级。
所以,当罗斯和黄仁勋开始交谈时,考虑到所有超大规模云服务商和云平台构建商都在创建自己的 AI XPU,同时也在使用英伟达(有时也用 AMD)的 GPU,而像 Anthropic 这样的模型构建商也承诺使用谷歌的 TPU 和 AWS 的 Tranium,2.9 倍的估值或许看起来是一个相当不错的退出价格。Groq 的 LPU 进入中国市场将会面临一些问题,因为那里才是真正的 AI 中心,而欧洲尚未找到以独特且本土化的方式更充分地参与到 GenAI 热潮中的方法。
即使抛开英伟达可能出于防御目的而收购 Groq 的所有理由,你也能理解为什么罗斯和 Groq 的投资者们对这笔交易感到满意。因此,Groq 的两位联合创始人之一 乔纳森 · 罗斯现在成为了英伟达的首席软件架构师,而桑尼 · 马德拉 则成为了英伟达的硬件副总裁。事情就是这样。
此次收购的结构很简单:鉴于全球反垄断监管机构对英伟达以 69 亿美元收购 Mellanox Technologies 的行动迟缓,以及黄仁勋 400 亿美元收购 Arm 的计划被否决,英伟达此次选择保留部分股权,以免给人留下收购整个 Groq 的印象。可以肯定的是,美国政府将会修改相关规则,但我们也推测,黄仁勋此次收购也得到了特朗普总统的默许。
在我们看来,如果 Groq 团队已被剥离,且剩余的 Groq 公司未来不再进行 LPU 的研发,那么英伟达就可能面临反垄断的风险,因为世界各国政府无论是否愿意,都对这类并购拥有发言权。如果英伟达不想触怒监管机构,它本可以以远低于 Groq 当前估值的价格进行交易——那样的话,Groq 的创始人和投资者们就可以笑着关上大门,然后给 AMD 打个电话了。这里面充满了胆量博弈。
还有一点:并没有规定英伟达必须使用其已获得授权的技术。公司被收购后却被束之高阁,只因为它们可能颠覆现状,这种情况屡见不鲜。我们最喜欢的例子就是 Transitive 公司,其 QuickTransit 模拟器只需稍作修改即可在 Unix 系统上运行大型机应用程序,或在 Linux 系统上运行 Unix 应用程序。QuickTransit 被用于苹果公司创建的 "Rosetta" 模拟环境,该环境旨在实现其 PC 从 PowerPC 处理器向 X86 处理器的过渡,而且效果出奇地好。IBM 担心 QuickTransit 会对其造成严重冲击,因此在 2008 年末收购了 Transitive。在一番关于在其 Power Systems 机器上模拟其他系统的花言巧语之后,这家蓝色巨人在 2011 年彻底关闭了所有相关业务,并且再也没有提及此事。
Enfabrica 的收购与 Groq 的收购类似,都可能预示着架构的改变 …… 也可能不会。这或许只是 Nvidia 路线图上技术融合的一种伪装,实则是一种防御性策略。(Nvidia 以前从未这样做过,但如今的 Nvidia 已非五年前或十年前的 Nvidia。)
Enfabrica 于 2021 年 6 月正式发布新作,当时我们对该公司未来的发展方向并不太了解。到了 2023 年 3 月,我们看到了它的进展:Enfabrica 的 "Millenium"ACF-S 芯片将扩展内存和主机 I/O 全部集成到单个芯片上,从而在机架式架构中取代了网卡、PCI-Express 交换机、CXL 交换机以及机架顶部或叶交换机。
首款应用 ACF-S 技术的产品名为 SuperNIC,它基于 CXL 技术打造了一款扩展内存服务器,旨在大幅提升 AI 推理工作负载核心——键值缓存的规模和性能。这款名为 Emfasys 的内存扩展器于 2025 年 7 月发布。值得一提的是,该公司创始人当时告诉我们,在四机架 GB200 NVL72 机架级服务器上添加一机架 Emfasys 内存扩展器,即可将每个令牌的成本降低一半(这意味着通过扩展内存,GPU 的吞吐量翻了一番)。
我们认为,英伟达有可能想要打造一台性能更强大的推理机器,而这台机器并非完全基于其现有的 GPU 架构,Groq 和 Enfabrica 的技术将在其中发挥作用。但同样有可能的是,这两笔收购交易的真正目的是为了阻止其他公司抢占先机。而更有可能的是,两者兼而有之。


