摸着DeepSeek过河,OpenAI砍掉一半推理成本

今年 6 月底，The Information 扔出了一枚重磅炸弹：OpenAI 的工程师们找到了一套系统优化方案，能把模型推理成本砍掉一半以上。

过去需要几万张 GPU 才能喂饱的算力需求，现在几百张就够了。

这个数字放在两年前，整个硅谷都会觉得是天方夜谭。但今天，它变成了现实，而且出自 OpenAI 自己之手。

更耐人寻味的是，这家曾经靠 " 大力出奇迹 " 横扫全球的 AI 霸主，正在走的这条路，DeepSeek 早在一年多前就已经走过一遍了。

OpenAI 在学 DeepSeek。这是一个正在发生的事实。

01OpenAI 到底有多 " 缺钱 "？

在聊 OpenAI 为什么学 DeepSeek 之前，得先搞清楚一个问题：OpenAI 到底有多缺钱？

2025 年全年，OpenAI 营收约 130.7 亿美元，相比 2024 年的 37 亿美元增长了 253%。这个增速放在任何行业都是惊人的。但问题出在另一侧：总成本和支出高达 340 亿美元。

营收 130 亿，支出 340 亿。运营亏损 209 亿美元。

如果算上架构重组带来的一次性非现金计提，净亏损接近 390 亿美元。即便扣除那些不会重复的会计项目，调整后的亏损也有 80 亿美元左右。

进入 2026 年，情况并没有好转。第一季度营收 57 亿美元，同期现金消耗达 37 亿美元，已经烧掉了超过一半的收入。公司预计 2026 年全年亏损将飙升至 250 亿美元。

烧钱率高达 83.3%。换句话说，OpenAI 每赚 1 块钱，就要花掉将近 2 块钱。

更尴尬的是毛利率。2026 年一季度，OpenAI 的毛利率只有 39%。虽然比去年同期的 33% 有所提升，但距离年末 52% 的目标仍有不小差距。

39% 的毛利率放在 SaaS 行业里是什么水平？及格线都算不上。一家正经的软件公司，毛利率低于 70% 都不好意思跟投资人开口。

而 OpenAI 还在为能不能冲到 52% 发愁。

这背后的核心原因，就是推理成本太高了。

大模型这东西，训练烧一次钱，推理天天烧钱。

月活 8 亿的 ChatGPT，每一次对话都在燃烧 GPU。Sora 这类视频生成工具更是算力黑洞，OpenAI 已经不得不在 2026 年将其关停，把宝贵的算力资源转向更具商业确定性的方向。

与此同时，OpenAI 正在推进一轮 1200 亿美元的融资，投前估值 7300 亿美元。公司还在秘密提交 IPO 申请，Sam Altman 正全力争取在 Anthropic 之前完成上市。

在这个节骨眼上，盈利能力就是估值叙事的命根子。

推理成本砍一半，毛利率就能往上蹿一截。IPO 的故事就能讲得更圆。这就是 OpenAI 突然对 " 省钱 " 这件事如此上心的根本原因。

02DeepSeek 早就走过的路

那 DeepSeek 是怎么做的？

2024 年 5 月，DeepSeek 在 V2 的技术报告中提出了一个机制，叫 Multi-head Latent Attention（MLA）。

这个学术名词听起来很唬人，但核心目的就一个：压缩 KV cache。

KV cache 是什么？简单地说，就是大模型在生成文字时留下的 " 笔记 "。

大模型生成回答是一个字一个字往外蹦的，每蹦一个字都要回头看前面已经说过什么。如果没有 KV cache，每生成一个新字都要把整段话重新读一遍。

你问 1 万字的材料，生成第 1 个字读一遍，生成第 2 个字再读一遍，生成到第 10000 个字还要再读一遍。成本直接爆炸。

KV cache 就是让模型记住 " 前面说过什么 "，避免重复计算。

但这个 " 笔记 " 占的是显存，而且是高频读取的热数据。KV cache 越大，需要的显存越多，GPU 就越贵。

DeepSeek 的 MLA 把 KV cache 压缩进了 latent vector。效果惊人：相较于 DeepSeek 67B，V2 的 KV cache 减少了 93.3%，最大生成吞吐提升到 5.76 倍。

到了 V4 系列，DeepSeek 更是把性价比做到了极致。V4 Flash 的输出价格仅为每百万 token 约 0.84 美元。而 OpenAI GPT-5.5 要 30 美元，顶配的 pro 版本要到 180 美元。

30 美元对 0.84 美元，差了 35 倍。

DeepSeek 凭什么敢定这个价？凭的就是从架构层面把推理成本打了下来。

更狠的是，2026 年 4 到 5 月，DeepSeek 把 V4-Pro 的 API 价格降至原定价的四分之一并永久执行。输入（缓存命中）价格低至每百万 tokens 0.025 元。

有创业者感叹：" 这成本几乎比生产对应 Token 所需要的电费还便宜。"

与此同时，OpenAI 还在用传统架构硬扛着高昂的推理成本。两者的成本曲线，已经不在一个维度上了。

回到 OpenAI 这次的技术突破。

根据 The Information 的报道，OpenAI 的优化方向主要来自 KV cache 上的优化。

具体来说，是 Prompt Caching（提示词缓存）机制的升级。这个机制的本质就是 KV cache 的复用，模型第一次读完一段前缀后生成中间结果，后续请求如果用了相同前缀，就直接复用，不用重新计算整段 prompt。

早在 2024 年 10 月，OpenAI 就在开发者文档里加入了 Prompt Caching。官方表示最高可以把延迟降低 80%，输入 token 成本降低 90%。

但这次不一样。这次是把整个推理成本砍掉了一半以上。

而且是用纯软件手段实现的，没换新芯片，没搞架构革命，就是把现有服务器的利用率给拧上去了。

这恰恰是 DeepSeek 最擅长的事。

DeepSeek 从一开始就没打算跟 OpenAI 拼谁堆的 GPU 多。它的打法是：在有限的算力下，把效率榨干到极致。MLA 压缩 KV cache 也好，MoE 架构降低激活参数也好，核心逻辑就一个——用更少的算力做更多的事。

OpenAI 这次做的，本质上是一样的事。

更有意思的是，开发这个新架构的团队，是一个从 OpenAI 剥离出去的独立团队。这意意味着 OpenAI 内部可能早就有人在探索这条路，只是直到今天才真正落地。

海外科技博主 Andrew Curran 表示，OpenAI 在架构上出现了一个重大突破，尤其是在内存效率方面。

这个 " 重大突破 "，DeepSeek 在 2024 年就已经实现了。

OpenAI 正在走的，是 DeepSeek 已经蹚过一遍的路。

04 从 " 炫技 " 到 " 算账 "

OpenAI 学 DeepSeek，更深层的原因在于整个战略逻辑的切换。

过去几年，OpenAI 的叙事是 " 大力出奇迹 "，堆最多的 GPU、训最大的模型、烧最多的钱，然后用性能碾压一切对手。这个逻辑在 GPT-4 时代是成立的，因为那时候没有谁能跟 OpenAI 比烧钱。

但到了 2026 年，情况完全不同了。

一方面，模型性能的提升正在进入边际递减区间。GPT-4 到 GPT-5 的提升幅度，远小于 GPT-3 到 GPT-4。继续堆算力换性能的性价比越来越低。

另一方面，竞争对手不再是 " 能不能追上 " 的问题，而是 " 谁更便宜 " 的问题。DeepSeek 用不到十分之一的成本提供了接近的性能。Anthropic 在企业市场步步紧逼，谷歌虎视眈眈。

OpenAI 再也不能躺在 " 最聪明 " 的牌桌上吃老本了。

于是我们看到了一系列战略转向：

2026 年 5 月，OpenAI 进行了 IPO 前夕最大规模的组织架构重组。ChatGPT、Codex、API 三大产品线被全部打碎，合并为一个统一的产品组织。总裁 Greg Brockman 全面主导产品方向。

应用业务负责人 Fidji Simo 在全员会议上明确宣布：公司将降低 Sora 等消费产品的优先级，转而专注利润率更高的企业工具和编码产品。

企业业务收入已占 OpenAI 总收入的 40% 以上，预计到 2026 年底接近 50%。

OpenAI 还与博通合作开发定制推理芯片，试图进一步压低成本。

所有这些动作指向同一个方向：从 " 炫技 " 转向 " 算账 "。

而 " 算账 " 这门功课，DeepSeek 从一开始就在做。

当一个公司一年亏 200 多亿美元的时候，" 省钱 " 就不再是一个选项，而是一个生存问题。

更何况 OpenAI 还要 IPO。资本市场看的是盈利预期，不是技术有多炫。推理成本砍一半，毛利率从 39% 往 52% 冲，这个故事比 " 我们正在造 AGI" 值钱多了。

另一个原因是竞争压力。

DeepSeek V4 系列发布后，已经有美国 AI 初创公司把部分工作负载从 Anthropic 迁移到了 DeepSeek，省下了数百万美元的成本。

这不是什么遥远的威胁，而是事实。

OpenAI 如果再不把成本打下来，失去的就不仅是市场份额，还有整个估值逻辑的根基。

05OpenAI 到底在学 DeepSeek 什么？

总结下来，OpenAI 在学 DeepSeek 三件事：

第一，学成本意识。

DeepSeek 从一开始就把 " 低成本 " 写进了基因里。训练 R1 只花了约 560 万美元，而 GPT-4o 的单次训练成本约 1.2 亿美元。推理成本更是只有 OpenAI o1 的 3%。

这不是偶然，这是刻在骨子里的生存哲学。

OpenAI 以前不需要省，因为投资人愿意为 " 最聪明 " 买单。但现在不行了。209 亿的亏损，1200 亿的融资，IPO 在即，省下来的每一分钱都是利润。

第二，学架构创新。

DeepSeek 的 MLA 把 KV cache 压缩了 93.3%。OpenAI 这次的优化方向同样是 KV cache。

这不是巧合。这是技术路线上的趋同进化，当所有人都面对同样的算力瓶颈时，最优解往往是相似的。

第三，学商业逻辑。

DeepSeek 的商业模式从来不是 " 卖最贵的模型 "，而是 " 用最低的成本提供足够好的性能 "。它通过 API 降价、峰谷定价、缓存命中优惠等手段，把 Token 做成了大宗商品。

OpenAI 现在也在做同样的事。GPT-5.6 Sol 的定价仅为竞品 Claude Fable 5 的一半。推理成本降低带来的定价空间，让 OpenAI 可以在保持毛利的同时发动价格战。

从 " 卖铲子 " 到 " 分金矿 "，从 " 成本项 " 到 " 分成项 "，这个转变，DeepSeek 走在了前面。

OpenAI 学 DeepSeek 这件事，本质上是一个迟到的觉醒。

过去几年，整个 AI 行业都被 " 规模法则 " 洗了脑，模型越大越好，算力越多越好，烧钱越狠越好。

这个逻辑在融资驱动的高速扩张期是成立的，因为投资人为增长买单，不为效率买单。

但当融资节奏放缓、IPO 压力逼近、竞争从 " 谁更强 " 变成 " 谁更便宜 " 的时候，效率就成了唯一的答案。

DeepSeek 从一开始就看透了这一点。它没有跟 OpenAI 拼谁有钱，而是拼谁更会省钱。事实证明，这条路不仅走得通，而且正在成为行业的主流方向。

OpenAI 现在做的，不过是终于承认了这条路是对的。

从 " 大力出奇迹 " 到 " 省钱才是硬道理 "，从 " 最聪明的模型 " 到 " 最划算的 Token"，OpenAI 的转向，标志着 AI 行业从 " 军备竞赛 " 进入了 " 精打细算 " 的新阶段。

而 DeepSeek，早就在这个新阶段的起跑线上等着了。

摸着 DeepSeek 过河的 OpenAI，到底能不能追上这个先跑了一年多的对手？答案可能要等 2026 年下半年的财报才能揭晓。

但有一点已经可以确定：AI 行业的游戏规则，彻底变了。

宙世代

一起剪

相关标签