雷锋网 昨天
被遗忘十年的LPU翻红,一门新生意成立了吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当 AI 从训练走向推理时代之后,单一通用架构开始触及效率边界。变化由此发生—— " 只用 GPU 打天下 " 的故事难以延续,专业化分工逐渐成为芯片行业的共识。

越来越多企业尝试将不同计算任务拆解给不同类型芯片处理。

谷歌在新一代 TPU 上推进训推分离;Anthropic 押注存内计算架构;SambaNova 推出 "CPU+GPU+RDU" 系统方案;Cerebras 则选择以晶圆级芯片挑战传统 GPU 集群。

其中最具代表性的案例,是被黄仁勋 " 捧红 " 的 Groq。

随着 Groq LPU(Language Processing Unit,语言处理单元)被纳入英伟达 Vera Rubin 平台,原本被视为 " 小众路线 " 的 LPU 第一次进入主流 AI 基础设施体系。对于行业而言,这不仅宣告了一种新芯片获得认可,更意味着推理时代开始接受不同芯片处理不同任务的逻辑。

国内市场同样感受到这股风向。围绕数据流架构、SRAM 高带宽存储以及其他推理加速方向,各类新方案不断涌现,想要讲出自己那版 LPU 故事的玩家也接连冒头。(更多技术故事和商业内幕,欢迎添加作者微信 Evelynn7778 交流)

当 AI 芯片专业化分工趋势日渐明朗,LPU 究竟是一种阶段性热点,还是推理时代长期存在的新工种?而当赛道逐渐变得拥挤,LPU 或许是一种成立的需求,但独立 LPU 公司会是一门成立的生意吗?

被遗忘十年的 LPU,为什么突然红了?

用 25% 的 Groq LPU 搭配 75% 的 Vera Rubin 来应对源源不断的高价值 Token 生成需求,这是英伟达给出的最新方案。

打法背后,是 Agent 时代对规则的改写:AI 应用不再只是一次性问答,持续推理的工作流正在引发 Token 洪流;基础设施竞争不断升维,从单芯片性能比拼迈向系统层级的效率优化。

于是,Transformer 推理过程中的每一道工序开始被重新丈量和打磨。

最先被看清的是 Prefill 与 Decode ——一个更关注算力密度,另一个更依赖响应速度和系统吞吐能力。

但行业很快发现,即使在 Decode 内部,不同工作负载的最大诉求也不尽相同:Attention(注意力机制)忙于搬运和读取海量 KV Cache,大量 Token 生成任务则落在 FFN(前馈神经网络)身上。

当差异被看见,分工协作的需求也愈发迫切。不同类型芯片开始进入推理系统,各自承担最擅长的工作。

Groq LPU 正是在这一背景下重新进入市场视野,作为 Vera Rubin 平台中的新增角色,以 LPX 系统形式专攻 FFN 相关工作流。

某种程度上,这也释放了 "推理不再绑定单一架构" 的信号。

" 超低延迟推理等不适合 GPU 处理的极端场景,就可以交付给 LPU。" 芯片架构师方晓表示," 相当于开了一条高速通道专门服务客户。"

事实上,LPU 并非横空出世。Groq 成立于 2016 年,其核心架构设计同样诞生于上一个 AI 时代。但过去很长时间里,这类专用芯片始终没有进入主流市场。

转折点出现在系统级创新成为行业共识之后。

据悉,2025 年初英伟达首次向合作伙伴开放 NVLink 互联生态后,Groq 主动寻求接入机会,希望获得这一原本用于 GPU 之间通信的协议支持。

随着 GPU 与 LPU 协同运行的可能性得到验证,双方合作开始具备现实基础。而英伟达自身战略的变化,带来更大的想象空间。

AI 系统架构师徐先生观察到,未来针对 Transformer 推理范式设计的新型芯片会越来越多。" 通过单颗芯片实现领先的时间正在缩短。" 他表示," 而凭借系统级架构创新,英伟达的领先优势很可能从几个月拉长到 1-2 年。"

换句话说,对于英伟达而言,引入 LPU 并非为了取代 GPU,而是希望找到更适合承担特定推理任务的角色。(关于当前业内异构方案的真实落地情况,欢迎添加作者微信 Evelynn7778 交流)

专业化分工为 LPU 带来新的机遇,但能否把机会变成市场,却是另一回事。当越来越多企业开始扎堆 LPU 赛道,一个更现实的问题正浮出水面:LPU 被寄予厚望的技术优势,含金量到底有多大?

LPU 的两张王牌,有多少含金量?

LPU 最常被提及的 " 看家 " 本领之一,是 Groq 引以为傲的编译器及其静态调度能力。

方晓认为,外界对 LPU 最大的误解,是将其优势简单归结为单芯片性能。

" 单芯片的确定性延迟并非 LPU 独有,所有 ASIC 都能做到。真正难的是多芯片间、机柜间和集群间的精确编排。" 在她看来,这才是 LPU 最深的护城河,也是国内非大厂企业很难突破的壁垒。

但曾在大厂负责芯片软件栈设计的 Tim 对此持保留态度,认为编译能力的价值与模型形态密切相关。

在 CNN 时代,模型结构丰富、算子种类繁多,编译器拥有许多大显身手的可能。但随着 Transformer 成为行业主流,大模型的核心算子不断收敛,大量层结构高度重复。

"这反而收窄了编译器能够发挥的优化空间。"Tim 直言。

与此同时,MoE(Mixture of Experts,混合专家)等动态架构的兴起,也在削弱全静态系统的优势。

" 现在这个时代,几乎所有顶流模型都有 MoE 结构。"Tim 说,"推理时具备的动态性,对全静态系统并不是特别友好。"

他进一步解释,不同请求在推理过程中激活的专家组合并不相同,而这些信息在编译阶段无法提前获知。

对此,Mark 也表达了类似观点,他创办的非 GPU 芯片企业,目前已获得多家头部美元基金投资。

"为了保证系统始终按照预定节奏运行,编译器只能先为最坏情况做打算。" 他指出," 被固化的硬件侧也需要保留一定冗余来维持整体同步,这使得部分理论优势会被抵消。"

围绕 LPU 的软件能力,业内尚未形成统一结论。相比之下,另一张存储 " 王牌 "SRAM 似乎更容易被量化。不少从业者表示,这才是 LPU 最核心的竞争力。

英伟达公开的数据显示,单颗 Groq 3 LPU SRAM 带宽为 150 TB/s,大约是采用 H100 HBM3 的 45 倍。在 256 颗 LPU 组成的 LPX 机柜中,总带宽进一步被推高至 40 PB/s(注:1 PB/s=1000 TB/s)。

除高带宽能力外,芯片行业从业者杨越认为这一路线的优势还在于绕开了 HBM 供应链和先进封装的限制。

在当前 AI 芯片成本结构中,存储的影响力持续上升。Epoch AI 数据显示,HBM 占 AI 芯片组件成本的比例已经从 2024 年初的 52% 增长至 2025 年底的 63%。

当越来越多成本被 HBM 吞噬时,市场开始重新审视 SRAM 路线的价值,但分歧依旧存在。

资深芯片产品负责人顾玥直言:"SRAM 其实是 LPU 巨大的缺陷。" 她认为,SRAM 最大的特点是快,但代价是容量小、单位成本高。

"它更像芯片里的法拉利,卖点是性能,而不是性价比。" 顾玥形容道。

不过,IO 资本创始合伙人赵占祥并不完全认同这种看法。他认为,单纯比较存储单价并没有太大意义。

" 相比 SRAM 只有几百 MB,HBM 动辄几十 GB 甚至上百 GB。即便 SRAM 单位价格比 HBM 贵,但在容量差距面前,HBM 最终承担的总成本反而可能更高。"

SRAM 也有自己的容量焦虑。有十余年经验的芯片计算架构专家晓东指出,SRAM 直接集成在芯片内部,需要与计算单元共享同一块硅片。这意味着面积分配始终是一道难题。

"DRAM 一个存储单元只需要 1 个晶体管和 1 个电容,而 SRAM 需要 6 个晶体管。" 他进一步补充," 同样面积下,SRAM 能存放的数据天然更少。"

公开数据显示,Groq 3 LPU 集成约 500MB SRAM,而 TPU 8i 约为 384MB。虽然 Cerebras WSE-3 凭借晶圆级集成方案将容量提升至 44GB,但代价是良率和成本的双重暴击。

讨论 SRAM 便宜还是昂贵有不同的角度。而更值得拷问的其实在于:推理时代究竟该用什么指标衡量价值?

Mark 认为是 Token。在他看来,一场从 " 系统成本 " 到 "Token 成本 " 的评价体系切换正在发生。

过去几年,行业习惯讨论 " 多少张卡可以部署一个模型 "。因此,大量厂商都在强调用更少 GPU 完成部署。

" 但当推理部署规模大到一定程度时,最小系统成本已经不再是首要考量。"Mark 说。

他举例称,一些方案虽然可以用 8 张 GPU 完成模型部署,但推理成本未必最低。而在 DeepSeek 公开采用 144 张卡构建推理集群后,行业开始意识到另一种可能性。

" 尽管整体系统成本显著提高,但更大的集群规模换来了更高的带宽、更高的 Token 吞吐量以及更低的单位 Token 成本。"Mark 分析。

由此 SRAM 的价值也将被重新考量。只是这套逻辑是否能够长期成立,仍有待检验。

分歧尚未消失,LPU 的优势代价也真实存在。但至少有一点已经形成共识:LPU 已经拿到了推理系统的入场券。

而其接下来要回答的,是市场一直追问的另一个现实问题——这是一门能够持续赚钱的生意吗?(有关推理加速芯片的更多前景,可添加作者微信 Evelynn7778 互通有无。)

推理时代需要「法拉利」,但谁来买单?

在获得英伟达加持之前,Groq 已凭借独立的端到端推理部署能力,拿下沙特推理基础设施项目、在欧洲部署大型算力中心,并进入 Meta 的 Llama 生态。

从这个角度看,Groq 的能力并不完全来自技术。

" 选择押注这条赛道的企业一定要有目标客户。" 赵占祥解释," 因为软件再怎么编译,最终还是要针对具体应用进行优化。"

换句话说,LPU 的商业化难点不只在于技术实现,还取决于是否有人愿意买单。但一个不容忽视的问题是——最需要 LPU 的人,往往也最有能力自研。

徐先生观察到,已经有大模型公司和互联网大厂开始行动。" 相对于 GPU 来说,LPU 会简单很多,只要给一两年时间就能做出来。" 他表示。(更多大厂推理加速芯片自研内幕和进展,欢迎添加作者微信 Evelynn7778 一起交流)

但潜在客户变对手还不是最坏的消息。"创企想靠 LPU 活不下去,需要找到‘大众’。英伟达是在拥有‘大众’的基础上,再增加一辆‘法拉利’,属于锦上添花。" 顾玥直言。

Mark 指出,这种分工未来还会继续深化。"Attention 和 FFN 之间的解耦程度很高,中间通信带宽要求并不高。" 因此在他看来,异构系统并不会带来外界想象中的巨大成本。

Tim 也认为,未来推理方案大概率会以异构形态存在。" 当每一点优化都能带来上亿美元回报时,研发成本很容易被摊薄。"

不过即便异构趋势成立,市场对于独立 LPU 公司的前景依然存在疑虑。

据赵占祥观察,很多企业已经在探索类似路线——用大容量 SRAM 和分布式存储来完成推理的工作负载。" 只不过现在统一叫 LPU"。他一语道破。(作者长期跟踪相关项目进展,欢迎添加微信 Evelynn7778 交流)

方晓联想到 DPU 的发展历程。2020 年前后,随着 DPU 概念兴起,大量创业公司涌入赛道,几年过去后,不少企业转型。在她看来,LPU 有可能重演类似剧本,原因之一在于漫长的市场培育周期。

赵占祥解释,任何一种新计算架构都需要时间沉淀,恰如英伟达 GPU 历经十年才实现大规模普及。

但这对于创业企业来说,却是最致命的风险。作为高度专用化的 ASIC,LPU 天然依赖当前主流模型架构。如果未来基础模型改弦更张,相关优化价值也可能被重新评估。

对此,Mark 也从另一角度给出回应:" 这反而给了创业公司机会,因为大厂未必愿意承担这种高风险。"

而晓东则相对乐观。他指出,从 CNN 时代的 AlexNet 引爆现代深度学习浪潮开始,过去十余年 AI 范式虽然不断演进,但底层逻辑并未发生根本改变。未来的新架构更可能是 Transformer 的 Plus 版。

Tim 也给出了类似判断:" 只要模型仍然需要从海量知识中筛选、调用和组合信息,对高带宽的需求就不会消失。基于这个需求来设计芯片,即使 Transformer 被替代,芯片本身也不会因此作废。"

市场从不缺乏新芯片的故事。真正决定一家 LPU 企业能否活下来的,未必是它拥有多先进的架构,而是它能否在市场成熟之前找到客户、场景与生态。

毕竟,推理时代或许确实需要越来越多 " 法拉利 "。但对于大多数创业公司而言,比造出一辆法拉利更难的,是找到那个愿意长期购买 " 大众 + 法拉利 " 组合的人。

作者持续关注 AI 算力芯片上下游,更多信息可添加作者微信 Evelynn7778 交流。

# 文中方晓、顾玥、杨越、晓东、Mark 和 Tim 均为化名。

雷峰网雷峰网 ( 公众号:雷峰网 )

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

芯片 ai 英伟达 基础设施 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论