当工程师拒绝更聪明的模型：AI推理大战，OpenAI换了一把"枪"

人工智能推理市场正在经历一场深刻的范式转变——速度，而非智能，正成为开发者愿意为之付费的核心变量。这一偏好的逆转，将长期处于边缘地位的芯片公司 Cerebras 推向了聚光灯下，也让 OpenAI 斥资数百亿美元押注一家即将上市的晶圆级芯片制造商。

据行业研究机构 SemiAnalysis 的深度报告，OpenAI 已与 Cerebras 签署总规模高达 750 兆瓦算力的主协议，潜在扩展至 2 吉瓦，对应剩余履约义务达 246 亿美元。

这笔交易的核心逻辑在于：OpenAI 旗下 GPT-5.3-Codex-Spark 模型在 Cerebras 硬件上可实现每用户每秒 2000 个 token 的生成速度，远超基于 HBM 的 GPU 集群所能提供的交互体验。与此同时，Cerebras 正站在 IPO 的门槛上，其命运已与 OpenAI 深度绑定。

这场速度革命的市场信号已相当清晰。SemiAnalysis 披露，其团队 80% 的 AI 支出（年化峰值达 1000 万美元）集中在 Anthropic 的 Opus 4.6 快速模式上——该模式以 6 倍溢价换取 2.5 倍交互速度。更具说服力的是，当 Opus 4.7 发布时，团队中多名工程师拒绝升级，原因仅仅是新版本不支持快速模式。这是 SemiAnalysis 团队首次主动放弃前沿智能，转而选择更快的 token 生成速度。

速度溢价：开发者用钱包投票

推理市场的竞争格局正在沿着一条新的轴线重新划分。

正如英伟达 CEO Jensen Huang 在今年 GTC 大会上反复强调的，吞吐量（每 GPU 每秒 token 数）与交互性（每用户每秒 token 数）是推理的根本性权衡——前者服务于批量处理，后者决定用户体验。SemiAnalysis 将其比喻为 " 公共汽车与法拉利 " 的选择：你可以慢速服务大量用户，也可以快速服务单个用户。

市场的偏好已通过消费行为得到验证。Opus 4.6 快速模式以 6 倍价格换取约 2.5 倍的交互速度，一度成为 Anthropic 利润率最高的产品 SKU，也是其今年 ARR 爆发式增长的重要驱动力。然而，SemiAnalysis 与 OpenRouter 合作收集的数据显示，该模式近期已出现性能退化——标准 Opus 4.6 的交互速度稳定在约 40 tps，快速模式曾超过 100 tps，但近期已降至约 70 tps，实际加速比从 2.5 倍缩水至约 1.75 倍。

OpenAI 和 Anthropic 均已意识到这一需求分层，并通过快速模式、优先模式、批量定价等多种产品形态，试图覆盖整个市场并寻找利润最大化的组合点。

晶圆级芯片：一场豪赌的技术逻辑

Cerebras 的核心赌注，是突破光刻机单次曝光的物理极限，将整张晶圆做成一块芯片。

其第三代产品 WSE-3 基于台积电 N5 工艺制造，在一张晶圆上集成了 44GB SRAM，提供 21PB/s 的内存带宽——比 HBM 高出数千倍。这一架构的本质是：用极高的内存带宽换取极低的访存延迟，使得在小批量、低算术强度的解码场景下，WSE-3 能够充分发挥其理论算力，而基于 HBM 的 GPU 在同等场景下往往处于 " 算力饥渴 " 状态。

然而，这一架构也带来了显著的计算密度代价。SemiAnalysis 指出，WSE-3 的稠密 FP16 算力实际仅为 15.625 PFLOPS ——这与 Cerebras 官方宣传的 125 PFLOPS 相差 8 倍，差距源于其采用了 8:1 非结构化稀疏假设，SemiAnalysis 将此称为 "Feldman 公式 "，并将其与英伟达的 "Jensen 数学 " 相提并论，但认为前者走得更远。

在系统成本方面，SemiAnalysis 估算每台 CS-3 服务器的物料成本（含 KVSS CPU 节点）约为 45 万美元，远高于其硅片本身约 2 万美元的台积电晶圆成本。高昂的定制化电源模块（来自 Vicor）、液冷系统以及每批次晶圆所需的定制掩膜版，共同推高了整体成本结构。

架构短板：网络带宽的几何困境

WSE-3 最显著的弱点，是极为有限的片外带宽。

每块 WSE-3 仅提供 150GB/s（1.2Tb/s）的片外带宽，仅为英伟达 Blackwell NVLink5 单 GPU 900GB/s 规模扩展带宽的六分之一。这一限制并非设计疏忽，而是晶圆级架构的内在约束—— SemiAnalysis 将其称为 " 岛屿问题 "。

问题的根源在于晶圆的均匀步进曝光机制。WSE-3 由 84 个相同的曝光单元（die）拼接而成，每个曝光单元必须完全相同，以确保跨 die 的片上 2D 网格互联正常工作。这意味着无法将 SerDes PHY 集中部署在晶圆边缘——若要增加 I/O 带宽，就必须在每个曝光单元中都预留 PHY 面积，而位于晶圆内部的 PHY 无法连接外部，形成大量 " 搁浅硅 "。此外，PHY 模块还会在片上网格中形成 " 空洞 "，增加数据路由延迟，削弱晶圆级架构的核心优势。

这一带宽瓶颈直接限制了 Cerebras 服务大模型的能力。对于参数量超过 1 万亿、上下文窗口达到百万 token 级别的现代智能体工作负载，Cerebras 不得不采用流水线并行策略，将模型按层切分到多块晶圆上，仅在晶圆间传输激活值。但随着模型规模扩大，所需晶圆数量线性增加，每次晶圆间传输的固定延迟也随之累积，最终侵蚀速度优势。

SRAM 扩展已死：路线图的隐忧

Cerebras 面临的另一个结构性挑战，是 SRAM 密度扩展的物理极限。

从 WSE-1（台积电 16nm，18GB SRAM）到 WSE-2（7nm，40GB），SRAM 容量实现了 2.2 倍的代际提升。但 WSE-3 从 7nm 升级至 5nm，SRAM 容量仅从 40GB 增至 44GB，增幅仅 10%，而逻辑晶体管数量增长了约 50%。SemiAnalysis 的数据显示，在 5nm 之后，台积电 N3E 相对 N5 的 SRAM 单元面积几乎没有缩减，N2 及后续节点亦然—— SRAM 扩展实际上已经停滞。

这意味着 Cerebras 未来提升 SRAM 容量的唯一路径，是在固定晶圆面积内牺牲计算面积换取存储面积，形成严格的零和权衡。下一代 CS-4 系统将沿用基于 N5 的 WSE-3，仅通过提升功耗来提高时钟频率和算力，SRAM 容量维持不变。

相比之下，英伟达收购 Groq 后，可通过混合键合技术在 Z 轴方向叠加 SRAM 芯片（即 LP40 路线图），绕开平面扩展的限制。Cerebras 也在探索类似路径——将 DRAM 晶圆或光子互联晶圆通过混合键合叠加在 WSE 上，但 SemiAnalysis 对其技术可行性和时间表持审慎态度，认为晶圆级混合键合面临的热机械应力和键合波挑战远比常规芯片复杂。

OpenAI 交易：单一客户的双刃剑

Cerebras 与 OpenAI 的关系，已远超普通供应商与客户的范畴。

根据 SemiAnalysis 援引的 S-1 文件，双方于 2025 年 12 月签署主关系协议（MRA），OpenAI 承诺在 2026 至 2028 年间分批采购 750 兆瓦 AI 推理算力，每批次合同期 3 至 4 年，可延长至 5 年，并持有额外采购 1.25 吉瓦的选择权。截至 2025 年 12 月 31 日，Cerebras 剩余履约义务达 246 亿美元。

资本结构上，OpenAI 同时扮演三重角色：向 Cerebras 提供 10 亿美元有担保营运资金贷款（年利率 6%，若以算力交付方式偿还则豁免利息）；持有 3344.5 万股 N 类（无投票权）普通股认股权证，行权价格接近于零；并在完全稀释基础上可能持有 Cerebras 约 12% 的股份。若 MRA 因 OpenAI 以外的原因终止，Cerebras 须立即偿还全部贷款余额及应计利息，且 OpenAI 有权直接控制托管账户资金的使用。

这一结构意味着 Cerebras 的增长前景与单一客户高度绑定。SemiAnalysis 预计，Cerebras 未来数年收入将出现明显拐点，OpenAI 是主要增长驱动力，但执行风险同样集中——在 2028 年前，Cerebras 需要交付的服务器数量将比其历史累计出货量高出一个数量级，而数据中心容量的落地进度是最大的不确定性。

速度换智能：这笔交易值多少钱

OpenAI 在 Cerebras 上运行的旗舰产品 GPT-5.3-Codex-Spark，并非真正的 GPT-5.3-Codex，而是基于 gpt-oss-120B 架构、经 GPT-5.3-Codex 蒸馏训练的小型模型，参数量比原版小逾 10 倍。

SemiAnalysis 对此直言不讳：Cerebras 的芯片在经济上目前只能高效服务相对较小的模型。对于参数量超过 1 万亿、上下文窗口达到 100 万 token 的现代智能体工作负载，OpenAI 若要在 Cerebras 上运行，需要接受显著的成本溢价，且预计实际交互速度将低于每秒 1000 个 token。

然而，这一判断背后存在一个关键变量：算法进步的速度。SemiAnalysis 认为，距离 120B 参数模型达到 GPT-5.5 级别的智能，可能不到一年时间。届时，" 以前沿智能换极速 token" 的价值主张将发生质变——正如今天工程师们宁愿放弃 Opus 4.7 的更高智能，也要坚守 Opus 4.6 快速模式的交互体验。

750 兆瓦的初始承诺已经锁定。真正的问题是：当 120B 模型的智能追上今天的前沿水平，OpenAI 是否会选择将选择权转化为实际采购，将协议规模扩展至 2 吉瓦乃至更多。这一答案，将决定 Cerebras 的 IPO 估值能否兑现，也将定义下一阶段推理战争的胜负手。

宙世代

一起剪

相关标签