钛媒体 前天
估值430亿,这家独角兽接手英伟达“看不上”的生意
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 融中财经

一个登顶,一个起跳,4.2 万亿美元与 60 亿美元的落差,为 AI 芯片战局埋下新变量。

一边是英伟达市值冲破 4.2 万亿美元,成为历史上首家达到这一规模的科技公司——这个数字超过了英国所有上市公司的市值总和,堪称商业史上 " 大象级 " 的存在。

7 月 15 日,英伟达 CEO 黄仁勋年内第三次访华,宣布美国批准恢复向中国出口定制的 H20 芯片,重启占其总营收 13%(约 170 亿美元)的中国市场,彰显其巩固 AI 时代统治地位的雄心。

另一边,2016 年成立的加州初创公司 Groq 正洽谈新一轮融资:以 60 亿美元(约 430 亿人民币)的投后估值募集 3-5 亿美元的资金,用于履行与沙特阿拉伯的重磅合同。

当黄仁勋在东方意气风发之际,Groq 创始人乔纳森 · 罗斯正盯着沙特的数据中心屏幕——那里由 1.9 万颗自研芯片组成的 AI 推理集群,从 2024 年 12 月搭建到投入运行仅用了 8 天,成为中东加速 AI 基建的核心引擎。

60 亿对 4.2 万亿,Groq 以不足英伟达 0.2% 的体量,展开了一场 " 不对称 " 的芯片竞赛。

这家公司被视为英伟达最强的竞争对手之一。它以 LPU 芯片的 SRAM 架构和 TSP 流式计算专攻推理,靠 80TB/s 片上带宽和静态调度砍掉延迟,瞄准英伟达 H100 的推理短板;英伟达则凭 CUDA 生态和 HBM 显存垄断,一边用 H200 强化推理能效,一边通过供应链控制(如买断 HBM 产能)压制对手。

前者借沙特布局和开源模型突围,后者靠开发者绑定和全栈优势死守,在推理市场上演 " 精准狙击 " 与 " 生态护城河 " 的攻防战。

创企中的 " 金汤玩家 "

这家 2016 年诞生于硅谷的公司,从诞生就自带 " 明星基因 "。

创始人乔纳森 · 罗斯(Jonathan Ross)的履历本身就是块金字招牌——他是谷歌第一代张量处理单元(TPU)的核心研发成员,亲历了 AI 芯片从实验室走向产业化的关键阶段。公司的另一位创始人是谷歌 Alphabet 的 X 实验室工程师道格拉斯 · 怀特曼(Douglas Wightman)。同样值得关注的是 Groq 的硬件工程副总裁吉姆 · 米勒(Jim Miller),这位行业老兵既主导过亚马逊 AWS 云计算硬件的开发与交付,也曾在英特尔领衔 Pentium II 处理器项目,横跨消费电子与企业级硬件两大领域。

罗斯和米勒的履历吸引了前谷歌 TPU 团队 80% 的核心成员加入 Groq,这种人才聚集效应在 2024 年 Groq 的沙特投资后进一步放大—— Groq 与 Meta 合作,为其官方 Llama API 提供推理加速服务;Meta 首席 AI 科学家 Yann LeCun 以技术顾问身份支持 Groq; 英特尔前晶圆厂负责人 Stuart Pann 则出任 Groq 首席运营官(COO)。

顶级团队自然吸引顶级资本。

2024 年 8 月,黑石集团(BlackRock)领投了 Groq 6.4 亿美元的 D 轮融资,思科、三星 Catalyst 基金等机构跟投,让 Groq 的估值一举冲到 28 亿美元。短短一年后,其估值即将翻倍至 60 亿美元,成为 AI 芯片赛道成长最快的独角兽之一。

此次 Groq 募资 3-5 亿美元,除了履行和沙特的合同,帮助其 AI 推理数据中心项目快速落地外,还包括构建北美本土供应链、扩张 GroqCloud 开发者生态,以及应对英伟达 H200 芯片量产带来的竞争压力。尽管沙特协议带来长期收入预期,但里程碑式付款条款导致 2025 年上半年需补充流动资金以应对产能爬坡前的资金缺口。

Groq 的融资带着明确的战略意图。

2024 年底,Groq 以闪电般的速度开启在沙特的战略布局。早在 2024 年 9 月,Groq 便与沙特阿美的数字与技术子公司 Aramco Digital 签署谅解备忘录,计划在沙特达曼建设全球最大规模的 AI 推理数据中心。

作为落地的第一步,Groq 于 2024 年 12 月在达曼快速部署了包含 1.9 万个 LPU(语言处理单元)的推理集群,仅用 8 天时间即完成上线,每日可处理数十亿 Tokens(词元),展现出惊人的执行效率。

为适配沙特的高温环境,Groq 对硬件设计进行了针对性优化,同时启动阿拉伯语 NLP 模型的本地化开发,以满足中东市场的特定需求。

该项目被纳入沙特 "2030 愿景 ",沙特阿美为此提供了上亿美元的资金支持,目标在 2025 年将处理能力提升至每日数千亿 Tokens,并最终部署 10.8 万个 LPU 芯片,形成全球最大的 AI 推理基础设施之一。这一布局依托沙特的地缘优势、低廉的能源成本和充足的建设空间。Groq 的快速行动为其后续获得沙特 15 亿美元投资承诺奠定了基础。

2025 年 2 月,沙特主权基金通过沙特阿美旗下 Aramco Digital 向其抛出 15 亿美元投资承诺,条件是协助沙特建设本土 AI 基础设施。这笔钱不仅让 Groq 的现金流底气十足,更让其业绩预期飙升:2025 年营收有望实现跨越式增长,达到 5 亿美元,使 Groq 迈入 " 亿级营收俱乐部 "。

不碰 " 训练 " 主战场,专啃 " 推理 " 硬骨头

Groq 从没想过与英伟达在 AI 训练芯片市场正面交锋。

当英伟达的 GPU 凭借 CUDA 生态在训练领域占据超 80% 市场份额时,它选了条差异化路线:专注于 AI 推理芯片。

这步棋精准踩中了行业痛点。AI 计算的 " 训练 " 与 " 推理 " 环节有着本质区别:训练像 " 教学生 ",需要海量数据反复调整模型参数,对算力的通用性和精度要求极高;推理则像 " 学生答题 ",需要在毫秒级时间内给出结果,更强调低延迟、高并发和低成本。

英伟达的 GPU 本是为图形渲染设计的,改造后用于 AI 训练合适,但拿来做推理却有些 " 大材小用 " ——其硬件资源中,有相当一部分是为支持训练时的复杂梯度计算而设计,在推理阶段反而成了冗余负担。

Groq 的核心产品 LPU(Language Processing Unit)就是冲着推理场景的痛点来的。它不追求 " 全能型 " 算力,而是聚焦 " 推理专项优化 ":让 Meta 的 Llama、谷歌的 Gemma 等已训练完成的大模型,在执行文本生成、语义理解等任务时跑得更快、更省电。

根据 Groq 官方在 2024 年底发布的基准测试结果,搭载 LPU 芯片的 Llama 模型,在大模型推理任务中每秒能生成 500 个 Tokens(文本词元),对比英伟达 H100(FP16)的 150 个 Tokens 每秒的速度快了约 3 倍,对比英伟达 H200 的 200 Tokens 每秒的速度,也快了两倍多。

在商业模式上,Groq 也与英伟达走出了完全不同的路径。

英伟达靠 " 硬件销售 + 软件生态 " 的组合拳盈利——既卖 GPU 芯片和 DGX 服务器等硬件,又通过 CUDA 平台绑定开发者;

Groq 则另辟蹊径,采用 " 芯片即服务 " 模式:自己建设数据中心,将 LPU 芯片组成服务器集群,向客户提供云端推理算力租用服务。这种模式让客户无需直接采购硬件,直接通过 API 调用就能体验其芯片性能,大大降低了尝试门槛。

今年 7 月,Groq 宣布在欧洲芬兰建设新的数据中心,进一步扩大云端服务版图,显然是想通过 " 服务先行 " 策略快速占领市场。

Groq 的技术手册里藏着不少 " 反套路 " 设计。

当行业巨头们比拼 4nm、5nm、7nm 先进制程时,它反其道而行之,选择相对成熟的 14nm 工艺;当英伟达的 H100 GPU 依赖 HBM 高带宽显存提升性能时,Groq 在 LPU 芯片里塞进了 230MB SRAM 高速缓存,靠架构创新弥补制程差距。

这步险棋意外走通了。大带宽 SRAM 让 LPU 的片上内存带宽达到 80TB/s,数据可以在芯片内部高速流转,不必频繁访问板载显存,直接将推理延迟砍掉一半以上。

更关键的是,这种设计让 Groq 避开了 HBM 显存的供应链瓶颈——英伟达的 H100 之所以常年缺货,很大程度上受制于 HBM 显存的产能,而 SRAM 的供应相对稳定,让 LPU 的量产更有保障。

架构层面的差异更具颠覆性。

英伟达 GPU 采用 "SIMD" 架构,擅长同时处理大量相似任务,但需要动态调度线程,存在一定算力闲置;Groq 的 TSP(Tensor Streaming Processor)架构则采用 " 流式计算 " 模式,将推理任务拆解成固定流水线,通过静态调度让每个时钟周期的算力都得到充分利用。这种设计让单颗 LPU 芯片的算力达到 1000 万亿次运算每秒(1000 TOPS),在部分机器学习模型上,速度比常规 GPU 甚至谷歌 TPU 快 10 到 100 倍。

Groq 的技术路线虽在推理场景展现优势,但也存在显著短板。

LPU 芯片内置 230MB SRAM 虽能实现高带宽,但单芯片内存远低于英伟达 H100 的 80GB HBM 显存,导致运行大模型时需大规模集群拆分。

正如原阿里技术副总裁贾扬清的推算,运行 Llama-70b 模型理论上需 572 颗 LPU(单芯片 2 万美元,总成本超 1100 万美元),而 8 颗 H100(总成本约 30 万美元)即可实现相当性能,硬件成本差距达 30 倍以上。尽管实际部署中可通过模型分片优化,但大规模集群的运维复杂度和能耗(576 颗 LPU 集群功耗约 100kW,8 卡 H100 约 30kW)仍显著高于 GPU 方案。

更关键的是专用架构的场景局限性:专用硬件的静态调度优势在算法迭代频繁时反而成为劣势,难以像 GPU 通过软件更新快速适配新模型。

生态破局与市场裂缝

技术再强,没有生态支撑也难成气候。英伟达的 CUDA 平台已积累超 400 万开发者,形成 " 硬件 - 软件 - 开发者 " 的稳固三角,这是任何挑战者都绕不开的高墙。Groq 的破局策略是 " 借船出海 ":尽可能对接现有开源生态,降低开发者的迁移成本。

它首先瞄准了开源大模型社群。Groq 团队花了大量精力优化 Meta 的 Llama 系列、谷歌的 Gemma 等热门开源模型在 LPU 芯片上的运行效率,这些模型本身已积累数百万开发者,只要证明 LPU 能让模型跑得更快,自然能吸引开发者尝试。更关键的是,Groq 在 2025 年推出了开发者控制台,通过友好的编程接口和免费算力(每月 1000 万 Tokens 的额度)试用政策,目前吸引了 7.5 万名开发者注册。

价格策略同样服务于生态扩张。LPU 芯片 2 万美元出头的定价,不仅比英伟达 H100 的 2.5-3 万美元低,也比部分中端 GPU 更具吸引力。Groq CEO 乔纳森 · 罗斯曾表示,到 2025 年底,Groq 计划部署 150 万颗推理芯片,占据全球一半的 AI 推理计算能力。这番话虽有营销成分,却精准点出了行业趋势—— AI 算力投入的重心正从模型训练阶段向推理阶段倾斜。

英伟达当然不会坐视 "Groq 们 " 蚕食市场。

面对推理芯片的崛起,它已迅速调整策略:推出基于安培架构的 A30/A10 等推理专用 GPU,优化 TensorRT 软件库的推理延迟,并通过 Triton 推理服务器提供端到端加速方案,试图将训练领域的优势延伸到推理市场。

更难撼动的是 CUDA 生态的 " 惯性 "。开发者在 CUDA 平台上积累了大量代码和工具链,迁移到新平台需要重新学习和调试,这种 " 路径依赖 " 让很多企业宁愿忍受 GPU 的高成本,也不愿冒险尝试新方案。

有行业人士透露,部分企业在与 Groq 接触时异常谨慎,生怕消息走漏后被英伟达 " 穿小鞋 " ——比如延迟交付 GPU,这种隐形压力客观上抬高了新芯片的推广门槛。

然而,市场永远存在裂缝。

2024 年以来的 "GPU 荒 " 让客户苦不堪言:云计算厂商为了抢购英伟达芯片,不得不提前几个月下单,否则就可能排不上产能。这种供需失衡让企业开始主动寻找 " 第二供应商 ",降低对单一厂商的依赖,这为 Groq 创造了窗口期。

更重要的是,AI 芯片市场并非 " 二元对立 "。除了英伟达和 Groq,英国的 Graphcore、中国的寒武纪、美国的 Cerebras 等玩家都在各自的技术路线上发力,形成 " 一超多强 " 的竞争格局。

Groq 的优势在于,它抓住了沙特等新兴市场的需求——中东国家正雄心勃勃地建设 AI 基础设施,既有钱又有场景,还乐于扶持非美国主流的技术供应商以实现技术自主,这种地缘需求为 Groq 提供了理想的 " 试验田 "。

然而,面对新兴市场的争夺,初创公司如 Groq 需加速布局——因为巨头们也没有停下脚步。继去年 12 月 Groq 在沙特布局后,今年 5 月,英伟达与 AMD 也发现了这一新兴市场,相继宣布在沙特建设芯片制造及 AI 基础设施基地,直接切入中东 AI 算力核心市场,这无疑给后来者增添了竞争压力。

全球 AI 芯片的竞合态势,在中国市场呈现出更复杂的张力。

近期,英伟达宣布 H20 芯片将重新在中国市场销售,虽 H20 受限于算力阈值(较 H100 略有下调),但凭借成熟的 CUDA 生态和高性能,短期内仍会分流部分对高端算力有迫切需求的企业(如大模型训练机构、云端服务商),给华为昇腾、寒武纪、壁仞科技等国内芯片企业带来直接竞争压力——尤其在需要兼容国际主流框架的场景中,国产芯片的生态适配成本仍需时间抹平。

这种压力也在迫使中国 AI 芯片市场加速 " 场景化突围 "。

不同于国际市场聚焦通用算力,中国市场的核心机会藏在垂直场景的深度绑定中:在智慧城市领域,海光芯片支撑的边缘计算节点,能高效处理交通摄像头的实时视频流(每秒解析 30 路 4K 画面),适配国内复杂的路况算法;自动驾驶赛道,地平线系列芯片已搭载于比亚迪、长城、理想等车企的多款车型,在辅助驾驶系统中负责视觉感知任务。

中国 AI 芯片市场的突围路径,正通过垂直场景的深度绑定逐步清晰——避开通用算力的正面竞争,在本土特色场景中打磨技术与生态。

结语

这场 60 亿对 4.2 万亿的较量,才刚刚开始。

它的结局大概不是 " 你死我活 " 的零和游戏,而是形成 " 多元共生 " 的生态平衡:英伟达继续主导高端 AI 训练市场,Groq 等新锐在推理细分赛道分得一杯羹。

这一格局恰似行业演进的常态:正如智能手机时代,苹果、三星锚定高端市场,小米、传音则在中低端与新兴市场开辟空间,彼此并非替代而是互补;又如 AI 领域,通用大模型与垂直场景的 AI Agent 各司其职——前者支撑基础能力,后者深耕具体需求。

对整个行业来说,这种竞争是好事。Groq 的出现至少能迫使英伟达优化推理芯片的成本和性能,让更多企业用得起 AI 算力。毕竟,AI 应用的场景丰富——从智能客服到自动驾驶,从医疗诊断到工业质检,不同场景对算力的需求千差万别,既需要英伟达这样的 " 全能选手 ",也需要 Groq 这样的 " 专精玩家 "。

" 某种程度上,我们的存在对英伟达反而是一种利好,"Groq CEO 罗斯说。" 他们可以继续生产那些高利润训练用的 GPU,而我们则接手他们不太想做、低利润但高产量的推理业务。"

当年没人能想到,一家显卡公司能成为 AI 时代的 " 卖铲人 ";同理,今天估值 60 亿美元的 Groq,十年后或许会在 AI 芯片版图中占据重要一席。

罗斯直言:" 你的工作不是跟随浪潮,而是要提前站位,准备好迎接它。"

无论 Groq 最终能否撼动英伟达,它所代表的创新精神和差异化打法都为行业带来了新的思考:在巨头林立的 AI 时代,小团队依然有机会凭借卓越的洞察和执行,实现对大象的 " 蚂蚁撼树 " ——或许不能将之推倒,却足以令大象为之侧目,不得不改变方向。

这正是技术进步最迷人的地方,也是市场竞争的价值所在。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 芯片 沙特 创始人 谷歌
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论