钛媒体 5小时前
推理成本砍掉一半以上,OpenAI摸着DeepSeek过河
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 字母 AI

在控制成本这方面,OpenAI 如今正准备走 DeepSeek 走过的老路。

外媒报道称,OpenAI 找到了一种新的系统优化方案,能把模型推理成本砍掉一半以上。

原文中是这样描述的,说过去几万张 GPU 才能满足的需求,现在几百张就足够了。

其实 AI 公司现在最头疼的,不是模型能不能再聪明一点,而是聪明一次到底要花多少钱。

过去,行业的主线一直是把模型的性能做强、把上下文的窗口拉大。可结果呢?能力是上去了,然而账单也上去了。

尤其是 OpenAI 这种月活 8 亿的公司,推理成本是他们商业运作的根基。

当所有人都在把 AI 编程、Agent 当作核心叙事的时候,OpenAI 准备去讲一个新故事。

OpenAI 从很久之前,就在想办法降低推理成本

OpenAI 虽然到现在也没公开这个方案的具体技术细节,但外媒援引知情人士的说法,称推理优化方向,主要来自于 KV cache 上的优化。

啥是 KV cache?

一句话概括,KV cache 就是模型读完前文后留下的 " 笔记 "。

大模型生成一句话,不是一次性写完的,而是一个 token 一个 token 地往外蹦。每蹦一个新 token,它都要回头看前面已经出现过的内容,判断下一个该说什么。

如果没有 KV cache,模型每生成一个新 token,都要把前面整段话重新读一遍、重新算一遍。比如你问了 1 万字材料,它生成第 1 个字要读一遍,生成第 2 个字还要再读一遍,生成到第 10000 个字还要再读一遍的话,那成本就炸了。

海外科技博主安德鲁 · 库兰(Andrew Curran)表示,OpenAI 在架构上出现了一个重大突破,尤其是在内存效率方面。最关键的是,开发了这个新架构的团队,是一个从 OpenAI 剥离出去的团队,并且这个新团队大概很快就会公布结果。

其实 OpenAI 盯上 KV cache 已经不是一两天的事情了。

早在 2024 年 10 月的一次开发者文档更新中,OpenAI 就加入了 Prompt Caching(提示词缓存)机制。

Prompt Caching 本质上就是对 KV cache 的复用,模型第一次读完一段前缀后,会生成对应的中间结果;如果后续请求用了相同前缀,系统就可以直接复用这部分 KV cache,而不是重新计算整段 prompt。

前缀是指开头那段重复出现的内容。比如 " 你是一个严谨的法律助手,你可以调用搜索、数据库、计算器,以下是合同全文……请找出风险条款 "

它的底层逻辑很简单,很多请求并不是完全从零开始的。

尤其像是系统提示、代码库上下文、长对话历史,往往会反复出现。如果每次都把这些前缀重新跑一遍 prefill,等于在浪费算力。

官方文档表示,通过 Prompt Caching,最高可以把延迟降低 80%,把输入 token 成本降低 90%。

其实 2024 年 5 月的时候,DeepSeek 就提出过类似的想法,以压缩 KV cache。在 DeepSeek-v2 的技术报告中,DeepSeek 团队提出了一个新的机制,叫做 Multi-head Latent Attention(MLA)。

MLA 的核心目的就是压缩 KV cache。报告里表示,MLA 把 KV cache 压进 latent vector,从而保证高效推理。相较于 DeepSeek 67B,DeepSeek-V2 的 KV cache 减少了 93.3%,最大生成吞吐提升到 5.76 倍。

DeepSeek 在 V4 发布后很快调整缓存命中价格,其实也是因为发现 KV cache 可以复用。

目前 GPT 并未有类似的折扣的机制,所以这次 OpenAI 推理优化,很有可能是想走 DeepSeek 走过的路。

KV Cache 是怎么扼住 HBM 喉咙的

KV cache 和显存是强相关的,因为 KV cache 就放在显存里。

KV cache 跟图片、视频这类可以慢慢加载的冷数据不同,它是模型生成每一个新 token 时都要频繁读取的热数据。如果把 KV cache 放在 CPU 内存、SSD 或者普通存储里,它也可以读取,但是读取的时间就会比较久。

模型每生成一个 token,GPU 都要去 KV cache 里查历史信息,所以为了减少延迟、提高吞吐,KV cache 必须放在离 GPU 计算单元最近,带宽最高,延迟最低的地方,也就是 HBM 里。

进一步来说,HBM 越大,首先意味着 GPU 能同时装下更多东西。比如更大的模型权重、更长上下文的 KV cache、更多并发用户的缓存。

所以 HBM 越大,模型服务的能力上限也就会越强,尤其是长上下文和高并发推理能力。

也正是因为推理对 HBM 的需求大到这个地步,所以行业才会去拼命地迭代 HBM4,英特尔另起炉灶搞 ZAM。

HBM4 是正统路线,继续堆带宽。

JEDEC 在 2025 年 4 月发了标准,核心变化是内存接口从 1024 位翻到 2048 位,单堆栈带宽从 HBM3E 的 1.18TB/s 直接拉到 2.8TB/s,容量从 24GB 提到 48GB。SK 海力士和三星在今年 2 月同时量产,全年产能被英伟达最新的 Rubin 架构提前订光。

但问题就是,从 H100 上的 HBM3(819 GB/s)到 Rubin 上的 HBM4(2.8 TB/s),带宽翻了 3 倍多,然而在 AI 面前,仍然是无底洞。

ZAM 是英特尔和软银旗下 SAIMEMORY 联合发布的新型显存,全称 Z-Angle Memory。

它跟 HBM 的区别在工艺,HBM 靠微凸块和硅通孔把 DRAM 一层一层叠起来,ZAM 用铜对铜混合键合直接把 9 层(8 层存储加 1 层控制)熔在一起。

结果是堆叠更矮、散热更好、功耗更低、成本更便宜。带宽约 2.5TB/s,接近 HBM4。不过短期内还是取代不了 HBM 的。只是说当前 HBM 的产能被 SK 海力士和三星两家吃死,价格和交期都不受下游控制,ZAM 的出现,是给行业多一条活路。

理解完这些技术路线,再来看 HBM 的逻辑,就很有意思了。

当 KV cache 压缩、分页、量化这些技术足够成熟,单个请求需要的 HBM 容量肯定会下降。尤其对推理集群来说,HBM 容量和带宽的利用效率会系统性提升。

但是你反过来去想,一旦推理的成本降下来了,模型厂商马上会把省出来的显存拿去做更长上下文、更高并发、更复杂 agent。

以前 8K 上下文贵,那就少给;现在 KV cache 优化了,就推 128K、1M 上下文。以前 agent 跑 10 步嫌贵,现在就让它跑 50 步、100 步。以前一个用户占一份缓存,现在要同时服务更多用户。

单个请求占用的 HBM 可能下降,但总的 HBM 需求未必下降。

还有一个点,HBM 不只是装 KV cache,它还要装模型权重、激活值、中间计算结果,也决定数据喂给 GPU 计算单元的速度。

就算 KV cache 被优化了,HBM 容量和带宽仍然是核心瓶颈。

OpenAI 想上市就必须降低推理成本

6 月 24 日,OpenAI 和博通联合发布了 Jalape ñ o。这是 OpenAI 参与设计的首款 AI 芯片。

这玩意从第一行电路设计开始,就是为 LLM 推理而生的,甚至于它都没办法跑通用任务。

从 2025 年 10 月公开宣布合作到 2026 年 6 月亮相,Jalape ñ o 只用了 9 个月。可是在半导体行业里,一颗新处理器的开发周期通常以年为单位,这个速度有点 " 太快了 "。

OpenAI 的官方说法是,能这么快是因为软件和硬件深度协同开发,而且 OpenAI 用自己的模型,加速了芯片设计中的部分优化流程。用 AI 设计 AI 的芯片,然后 AI 芯片再去跑 AI 模型。

Jalape ñ o 瞄准的方向就是推理。据外媒报道,Jalape ñ o 能把 LLM 服务成本砍掉约 50%。如果叠加上这次 KV cache 方面的优化,那 OpenAI 的推理成本,恐怕会降低一个数量级。

更关键的是,Jalape ñ o 还不是 OpenAI 在推理芯片这方面下的唯一筹码。

2026 年 1 月 14 日,OpenAI 和 Cerebras 签下了一份超过 100 亿美元的协议。协议中提到,后者给前者提供,750MW 的推理算力,持续到 2028 或 2029 年。未来可能还将扩展到 2GW。

5 月,Cerebras 在纳斯达克 IPO,估值一度冲到 230 亿美元以上。

英伟达和 AMD 做 GPU,底层逻辑是把很多小芯片用高速网络连起来组成集群。这是因为生产这些芯片的光刻机,它的单次最大曝光面积约 858mm ²(光罩固定尺寸)。而 H100 裸片已经达到了 814mm ²,如果强行做更大单片,需要多次拼接曝光,光刻缺陷、对位误差暴增,流片工艺基本不可行。

然而 Cerebras 不一样,它是直接造一颗跟整片硅晶圆一样大的芯片。WSE-3,4 万亿个晶体管,90 万个计算核心,44GB 片上 SRAM。一块芯片的内存带宽是英伟达 B200 的 2625 倍。

这么做的好处在于降低通信成本。在传统的 GPU 集群里,数据传输要在芯片之间、节点之间跳来跳去,通信成本非常大。

Cerebras 把所有东西放在一块晶圆上,省掉了绝大部分通信延迟。结果就是推理速度可以比 GPU 方案快 15 倍。GPT-5.3-Codex-Spark 在 Cerebras 上跑到了超过 1000 tokens/ 秒。

目前,Cerebras CEO 确认,GPT-5.4 已经可以在 Cerebras 硬件上跑起来了,在未来,GPT-5.5 也会运行在 Cerebras 的硬件上面。

而且不只是 OpenAI,AWS 在 6 月宣布和 Cerebras 合作搞 " 推理分解 "(inference disaggregation),把推理拆成 prefill 和 decode 两个阶段。prefill 是计算密集的,用 AWS 的 Trainium;decode 是内存带宽密集的,用 Cerebras 的 CS-3。

如今的 OpenAI 就是在两条腿走路,从硬件方面先压推理成本,然后再从软件方面压。奥特曼口口声声说不着急上市,并且外媒也表示,受 SpaceX 上市后股价不稳的影响,OpenAI 倾向于推迟到 2027 年再上市。

OpenAI 在 6 月中旬泄露的财务数据显示,OpenAI2025 年全年收入为 130.7 亿美元,总成本和费用却高达 340 亿,运营亏损 209 亿。光付给微软的云计算账单就超过 172 亿。

2026 年预计烧在推理和训练方面烧掉 141 亿。唯一的好消息是毛利率提高了,2026 年 Q1,OpenAI 的 API 业务毛利率达到了 39%,目标是年底冲到 52%。

不过这只是皮毛而已,大家心里都清楚,再不控制成本,OpenAI 可能就再也控制不住成本了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 数据库 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论