影子聊科技 5小时前
摸着DeepSeek过河,OpenAI砍掉一半推理成本
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今年 6 月底,The Information 扔出了一枚重磅炸弹:OpenAI 的工程师们找到了一套系统优化方案,能把模型推理成本砍掉一半以上。

过去需要几万张 GPU 才能喂饱的算力需求,现在几百张就够了。

这个数字放在两年前,整个硅谷都会觉得是天方夜谭。但今天,它变成了现实,而且出自 OpenAI 自己之手。

更耐人寻味的是,这家曾经靠 " 大力出奇迹 " 横扫全球的 AI 霸主,正在走的这条路,DeepSeek 早在一年多前就已经走过一遍了。

OpenAI 在学 DeepSeek。这是一个正在发生的事实。

01OpenAI 到底有多 " 缺钱 "?

在聊 OpenAI 为什么学 DeepSeek 之前,得先搞清楚一个问题:OpenAI 到底有多缺钱?

2025 年全年,OpenAI 营收约 130.7 亿美元,相比 2024 年的 37 亿美元增长了 253%。这个增速放在任何行业都是惊人的。但问题出在另一侧:总成本和支出高达 340 亿美元。

营收 130 亿,支出 340 亿。运营亏损 209 亿美元。

如果算上架构重组带来的一次性非现金计提,净亏损接近 390 亿美元。即便扣除那些不会重复的会计项目,调整后的亏损也有 80 亿美元左右。

进入 2026 年,情况并没有好转。第一季度营收 57 亿美元,同期现金消耗达 37 亿美元,已经烧掉了超过一半的收入。公司预计 2026 年全年亏损将飙升至 250 亿美元。

烧钱率高达 83.3%。换句话说,OpenAI 每赚 1 块钱,就要花掉将近 2 块钱。

更尴尬的是毛利率。2026 年一季度,OpenAI 的毛利率只有 39%。虽然比去年同期的 33% 有所提升,但距离年末 52% 的目标仍有不小差距。

39% 的毛利率放在 SaaS 行业里是什么水平?及格线都算不上。一家正经的软件公司,毛利率低于 70% 都不好意思跟投资人开口。

而 OpenAI 还在为能不能冲到 52% 发愁。

这背后的核心原因,就是推理成本太高了。

大模型这东西,训练烧一次钱,推理天天烧钱。

月活 8 亿的 ChatGPT,每一次对话都在燃烧 GPU。Sora 这类视频生成工具更是算力黑洞,OpenAI 已经不得不在 2026 年将其关停,把宝贵的算力资源转向更具商业确定性的方向。

与此同时,OpenAI 正在推进一轮 1200 亿美元的融资,投前估值 7300 亿美元。公司还在秘密提交 IPO 申请,Sam Altman 正全力争取在 Anthropic 之前完成上市。

在这个节骨眼上,盈利能力就是估值叙事的命根子。

推理成本砍一半,毛利率就能往上蹿一截。IPO 的故事就能讲得更圆。这就是 OpenAI 突然对 " 省钱 " 这件事如此上心的根本原因。

02DeepSeek 早就走过的路

那 DeepSeek 是怎么做的?

2024 年 5 月,DeepSeek 在 V2 的技术报告中提出了一个机制,叫 Multi-head Latent Attention(MLA)。

这个学术名词听起来很唬人,但核心目的就一个:压缩 KV cache。

KV cache 是什么?简单地说,就是大模型在生成文字时留下的 " 笔记 "。

大模型生成回答是一个字一个字往外蹦的,每蹦一个字都要回头看前面已经说过什么。如果没有 KV cache,每生成一个新字都要把整段话重新读一遍。

你问 1 万字的材料,生成第 1 个字读一遍,生成第 2 个字再读一遍,生成到第 10000 个字还要再读一遍。成本直接爆炸。

KV cache 就是让模型记住 " 前面说过什么 ",避免重复计算。

但这个 " 笔记 " 占的是显存,而且是高频读取的热数据。KV cache 越大,需要的显存越多,GPU 就越贵。

DeepSeek 的 MLA 把 KV cache 压缩进了 latent vector。效果惊人:相较于 DeepSeek 67B,V2 的 KV cache 减少了 93.3%,最大生成吞吐提升到 5.76 倍。

到了 V4 系列,DeepSeek 更是把性价比做到了极致。V4 Flash 的输出价格仅为每百万 token 约 0.84 美元。而 OpenAI GPT-5.5 要 30 美元,顶配的 pro 版本要到 180 美元。

30 美元对 0.84 美元,差了 35 倍。

DeepSeek 凭什么敢定这个价?凭的就是从架构层面把推理成本打了下来。

更狠的是,2026 年 4 到 5 月,DeepSeek 把 V4-Pro 的 API 价格降至原定价的四分之一并永久执行。输入(缓存命中)价格低至每百万 tokens 0.025 元。

有创业者感叹:" 这成本几乎比生产对应 Token 所需要的电费还便宜。"

与此同时,OpenAI 还在用传统架构硬扛着高昂的推理成本。两者的成本曲线,已经不在一个维度上了。

回到 OpenAI 这次的技术突破。

根据 The Information 的报道,OpenAI 的优化方向主要来自 KV cache 上的优化。

具体来说,是 Prompt Caching(提示词缓存)机制的升级。这个机制的本质就是 KV cache 的复用,模型第一次读完一段前缀后生成中间结果,后续请求如果用了相同前缀,就直接复用,不用重新计算整段 prompt。

早在 2024 年 10 月,OpenAI 就在开发者文档里加入了 Prompt Caching。官方表示最高可以把延迟降低 80%,输入 token 成本降低 90%。

但这次不一样。这次是把整个推理成本砍掉了一半以上。

而且是用纯软件手段实现的,没换新芯片,没搞架构革命,就是把现有服务器的利用率给拧上去了。

这恰恰是 DeepSeek 最擅长的事。

DeepSeek 从一开始就没打算跟 OpenAI 拼谁堆的 GPU 多。它的打法是:在有限的算力下,把效率榨干到极致。MLA 压缩 KV cache 也好,MoE 架构降低激活参数也好,核心逻辑就一个——用更少的算力做更多的事。

OpenAI 这次做的,本质上是一样的事。

更有意思的是,开发这个新架构的团队,是一个从 OpenAI 剥离出去的独立团队。这意意味着 OpenAI 内部可能早就有人在探索这条路,只是直到今天才真正落地。

海外科技博主 Andrew Curran 表示,OpenAI 在架构上出现了一个重大突破,尤其是在内存效率方面。

这个 " 重大突破 ",DeepSeek 在 2024 年就已经实现了。

OpenAI 正在走的,是 DeepSeek 已经蹚过一遍的路。

04 从 " 炫技 " 到 " 算账 "

OpenAI 学 DeepSeek,更深层的原因在于整个战略逻辑的切换。

过去几年,OpenAI 的叙事是 " 大力出奇迹 ",堆最多的 GPU、训最大的模型、烧最多的钱,然后用性能碾压一切对手。这个逻辑在 GPT-4 时代是成立的,因为那时候没有谁能跟 OpenAI 比烧钱。

但到了 2026 年,情况完全不同了。

一方面,模型性能的提升正在进入边际递减区间。GPT-4 到 GPT-5 的提升幅度,远小于 GPT-3 到 GPT-4。继续堆算力换性能的性价比越来越低。

另一方面,竞争对手不再是 " 能不能追上 " 的问题,而是 " 谁更便宜 " 的问题。DeepSeek 用不到十分之一的成本提供了接近的性能。Anthropic 在企业市场步步紧逼,谷歌虎视眈眈。

OpenAI 再也不能躺在 " 最聪明 " 的牌桌上吃老本了。

于是我们看到了一系列战略转向:

2026 年 5 月,OpenAI 进行了 IPO 前夕最大规模的组织架构重组。ChatGPT、Codex、API 三大产品线被全部打碎,合并为一个统一的产品组织。总裁 Greg Brockman 全面主导产品方向。

应用业务负责人 Fidji Simo 在全员会议上明确宣布:公司将降低 Sora 等消费产品的优先级,转而专注利润率更高的企业工具和编码产品。

企业业务收入已占 OpenAI 总收入的 40% 以上,预计到 2026 年底接近 50%。

OpenAI 还与博通合作开发定制推理芯片,试图进一步压低成本。

所有这些动作指向同一个方向:从 " 炫技 " 转向 " 算账 "。

而 " 算账 " 这门功课,DeepSeek 从一开始就在做。

当一个公司一年亏 200 多亿美元的时候," 省钱 " 就不再是一个选项,而是一个生存问题。

更何况 OpenAI 还要 IPO。资本市场看的是盈利预期,不是技术有多炫。推理成本砍一半,毛利率从 39% 往 52% 冲,这个故事比 " 我们正在造 AGI" 值钱多了。

另一个原因是竞争压力。

DeepSeek V4 系列发布后,已经有美国 AI 初创公司把部分工作负载从 Anthropic 迁移到了 DeepSeek,省下了数百万美元的成本。

这不是什么遥远的威胁,而是事实。

OpenAI 如果再不把成本打下来,失去的就不仅是市场份额,还有整个估值逻辑的根基。

05OpenAI 到底在学 DeepSeek 什么?

总结下来,OpenAI 在学 DeepSeek 三件事:

第一,学成本意识。

DeepSeek 从一开始就把 " 低成本 " 写进了基因里。训练 R1 只花了约 560 万美元,而 GPT-4o 的单次训练成本约 1.2 亿美元。推理成本更是只有 OpenAI o1 的 3%。

这不是偶然,这是刻在骨子里的生存哲学。

OpenAI 以前不需要省,因为投资人愿意为 " 最聪明 " 买单。但现在不行了。209 亿的亏损,1200 亿的融资,IPO 在即,省下来的每一分钱都是利润。

第二,学架构创新。

DeepSeek 的 MLA 把 KV cache 压缩了 93.3%。OpenAI 这次的优化方向同样是 KV cache。

这不是巧合。这是技术路线上的趋同进化,当所有人都面对同样的算力瓶颈时,最优解往往是相似的。

第三,学商业逻辑。

DeepSeek 的商业模式从来不是 " 卖最贵的模型 ",而是 " 用最低的成本提供足够好的性能 "。它通过 API 降价、峰谷定价、缓存命中优惠等手段,把 Token 做成了大宗商品。

OpenAI 现在也在做同样的事。GPT-5.6 Sol 的定价仅为竞品 Claude Fable 5 的一半。推理成本降低带来的定价空间,让 OpenAI 可以在保持毛利的同时发动价格战。

从 " 卖铲子 " 到 " 分金矿 ",从 " 成本项 " 到 " 分成项 ",这个转变,DeepSeek 走在了前面。

OpenAI 学 DeepSeek 这件事,本质上是一个迟到的觉醒。

过去几年,整个 AI 行业都被 " 规模法则 " 洗了脑,模型越大越好,算力越多越好,烧钱越狠越好。

这个逻辑在融资驱动的高速扩张期是成立的,因为投资人为增长买单,不为效率买单。

但当融资节奏放缓、IPO 压力逼近、竞争从 " 谁更强 " 变成 " 谁更便宜 " 的时候,效率就成了唯一的答案。

DeepSeek 从一开始就看透了这一点。它没有跟 OpenAI 拼谁有钱,而是拼谁更会省钱。事实证明,这条路不仅走得通,而且正在成为行业的主流方向。

OpenAI 现在做的,不过是终于承认了这条路是对的。

从 " 大力出奇迹 " 到 " 省钱才是硬道理 ",从 " 最聪明的模型 " 到 " 最划算的 Token",OpenAI 的转向,标志着 AI 行业从 " 军备竞赛 " 进入了 " 精打细算 " 的新阶段。

而 DeepSeek,早就在这个新阶段的起跑线上等着了。

摸着 DeepSeek 过河的 OpenAI,到底能不能追上这个先跑了一年多的对手?答案可能要等 2026 年下半年的财报才能揭晓。

但有一点已经可以确定:AI 行业的游戏规则,彻底变了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu the saas ipo申请 融资
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论