文丨苏扬
编辑丨郑可君
OpenAI 年底前将上线 100 万张 GPU,直观感受就是新一轮芯片战争打响了。
7 月 21 日,奥特曼在推特上预告,OpenAI 到年底前将上线超过 100 万张 GPU。他还补充道," 对团队感到自豪,但现在他们最好想想,怎么在这个数量规模上再扩容 100 倍。"
奥特曼官宣 OpenAI" 百万 GPU" 目标
这句看似简单的预告,实则暗藏多重信号:
首先,规模碾压对手。OpenAI 的目标不再是 10 万卡,20 万卡,要做就做 100 万卡,这一规模将达到马斯克旗下 xAI 训练 Grok 4 所用 20 万 GPU 的 5 倍;
其次,战略自主。算力基础设施的跃进,意味着 OpenAI 正逐步摆脱对微软 Azure 的依赖——过去其算力高度绑定微软,如今通过自建数据中心(如星门计划)掌握主动权;
最后,OpenAI 的行业野心也一览无余。" 扩容 100 倍 " 直指 AGI 所需的终极算力目标,一场以算力为基石的 AI 军备竞赛已进入白热化。
这里还有个小插曲——就在奥特曼定下冲刺 100 万卡目标之后,华尔街 · 日报就下场拆台,称星门计划进度不顺利,软银迟迟掏不出钱。但 OpenAI 随即 " 灭火 ":不仅官宣与甲骨文加码投资,将星门计划扩容 4.5 吉瓦,还强调一期项目已部分投入运营,多方合作进展顺利。
随后,马斯克更是直接 " 放卫星 ",5 年内,xAI 要部署到 5000 万张 H100 GPU 的等效算力。
马斯克提出 xAI 五年内 5000 万卡目标
按照单卡平均 4 万美元粗略计算,100 万卡规模,仅 GPU 部分价值就高达 400 亿美元,这种烧钱量级和速度,在科技行业也是前所未有,基本接近一线巨头们的年资本支出。
英伟达对此自然是乐见其成,问题是,行业数以万计的计算卡需求,会将英伟达的市值推向什么高度?
我们把视线再拉回算力上,OpenAI 最近一次受算力影响最大的案例是 3 月份上线的 " 吉卜力风格 " 生图功能,官方一度对产品做了限流处理,包括对生图的速率进行暂时性限制,将免费用户的生成额度限制在每日 3 次。奥特曼还在推特上高喊 " 我们的 GPU 快要融化了 ",表面是宣传产品,也可以看做是给犹豫不决的投资人 " 上眼药 "。
显然,星门计划还在筹资阶段,OpenAI、软银、甲骨文们虽然能凑出 500 多亿美元,但还有一半的缺口要通过债务融资完成,想要刺激投资人们掏钱,就得释放一些星门计划合理性的信号。
OpenAI 对算力的追逐由来已久,其算力来源包括自研、星门计划、微软三个主要渠道。
关于自研芯片这件事,一度传出奥特曼要筹集 7 万亿美元下场造芯的消息。不过,去年 2 月份,奥特曼委婉的否认了此事,在他与英特尔前任 CEO 帕特 · 基辛格的炉边谈话中曾说过:" 我们确实认为世界需要在 AI 计算(芯片)领域投入大量资金 "。
根据行业的跟踪和研究数据,OpenAI 自研芯片一直在有序推进,其首款产品最快 2026 年问世。
科技公司自研芯片路线图,标红为已发布,* 代表待确认,来源 HSBC
汇丰银行研究团队 6 月下旬披露了一份科技公司自研 ASIC 的进度表,包括谷歌、Meta、亚马逊、微软、xAI 等等在内的硅谷公司,清一色下场自研 AI 芯片。
研报显示,OpenAI 首款 3 纳米自研芯片由博通代工设计,代号为 Titan V.1,将于 2026 年发布,更先进的 Titan V.2 芯片将于 2028 年问世,但不确定为 2nm 工艺还是 A16(1.6nm)工艺。
一位长期跟踪半导体产业的分析师 Paul 则在推特上披露了 OpenAI 自研芯片的详细规格和发布时间 ( 如上图 ) ,强调 Titan V.1 将在 2026 年第三季度问世,核心配置包括 N3 工艺、144GB HBM3e 显存、两颗计算芯片,采用 CoWoS-S 封装等,但他认为,Titan V.2 将于 2027 年第三季度问世,比汇丰银行的分析师团队预测的 2028 年稍稍提前。
自研属于长线规划,在这条路跑通之前,OpenAI 的脚开始伸向微软之外的 " 另一条船 ",牵头搭建算力基础设施。
今年 1 月份,OpenAI 联合软银、甲骨文推出星门项目,计划四年在美国投资 5000 亿美元,搭建算力基础设施,首期投资 1000 亿美元,其中软银承担财务责任,OpenAI 负运营责任。
这里的重点是,运营权才是奥特曼在星门计划中想得到的——想怎么分配怎么分配,打不打价格战全都自己说了算。
美国得州阿比林星门项目工地航拍,来源:OpenAI
4 个月之后,OpenAI 又攒了一个 " 阿联酋版 " 星门计划,计划联合 G42、甲骨文、英伟达、软银等合作伙伴,在当地构建一个 1 吉瓦的数据中心,预计 2026 年投入使用。
这些宏大的基础设施项目兑现之前,OpenAI 的算力供给仍然依赖微软——两家自 2019 年开始合作,微软向其提供了超过 130 亿美元的直接投资,同时成为 OpenAI 独家算力提供商,微软则在 OpenAI 的模型、收入分成等方面获得优先权,比如可获得 OpenAI 49% 的利润分配权,最多可达到 1200 亿美元。
依赖微软,也要避免被微软 " 卡脖子 "。从 7 万亿美元造芯传闻,到 5000 亿的星门计划,再到阿联酋版星门,OpenAI 核心逻辑是构建一个由自己主导,不断堆高的宏大算力叙事。
没有规模化的算力,就会随时被谷歌的价格战碾压,而规模化是谷歌的先天优势。产品层面,缺算力就如同 " 巧妇难为无米之炊 ",就会出现更多 " 吉卜力风格 " 生图能力受限的问题,所以之前才会就有小道消息说,伊利亚因为算力需求被砍愤而离职、GPT-5、DALL-E 等就是因为算力短缺而被迫延迟发布等等。
巧合的是,在 OpenAI" 猛踩油门 " 的时候,微软却轻点了一下刹车。
今年 4 月份,美国券商 TD Cowen 分析师称,微软放弃了在美国和欧洲的 2 吉瓦新数据中心项目,微软官方的回复称数据中心容量都是多年前规划,现在各地布局都已完善,所以做了一些灵活性的战略调整。
微软的战略收缩,其实从去年底纳德拉接受 BG2 播客访谈中就能找到信号,他当时毫不避讳的强调和奥特曼的分歧," 我们需要用严谨的方式来思考如何有效利用现有设备。同时也要考虑设备的使用寿命,不能一味地购买新设备。除非 GPU 的性能和成本能带来显著改善,让利润率达到或超过大型云服务商的水平,否则我们不会轻举妄动。"
大家都在追逐算力的安全感,纳德拉认为存量算力已经足够,需要精细化运营,奥特曼担心的是算力不够成为新模型、产品的掣肘。
于是,双方越走越远。
今年 1 月,微软选择了放手,与 OpenAI 修订了合作条款,允许其使用第三方供应商的计算资源,很快甲骨文、CoreWeave 这些云厂,逐个都跟 OpenAI 签订了租赁协议。当然,为了体面,微软依旧拥有提供算力的优先合作权。
The Information 援引投资人会议的消息称,OpenAI 计划到 2030 年,将 75% 的算力来源转移至星门项目上。
OpenAI 追逐算力,内部要实现 " 算力自主可控 ",外部则是应对硅谷巨头们的 " 算力战争 "。
7 月 16 日,The Information 上线了专访 Meta CEO 扎克伯格的内容,扎克伯格称 Meta 正在建设多个数据中心集群。
" 我们的人员正在夜以继日地工作于普罗米修斯(Prometheus)和亥伯龙(Hyperion)项目中,这是我们的前两个泰坦(Titan)集群,都将超过 1 吉瓦。亥伯龙将在未来几年扩展到 5 吉瓦。我分享过它的图片,从占地面积来看,这个数据中心的规模占了曼哈顿的相当一部分。它太庞大了。" 扎克伯格说。
Meta 位于曼哈顿的亥伯龙数据中心项目示意图 来源:扎克伯格
1 吉瓦的数据中心是个什么概念?
假设 Meta 在建的1 吉瓦亥伯龙数据中心全部部署 GB200 NVL72 机架,按照单机架 140KW 的功耗计算,总计可容纳 7100+ 个机架,由于每个机架内置 72 张 GPU,总计大约 51 万张 GPU,按照单机架 300 万美元来折算,7100 多个机架的总成本就超过 210 亿美元。
而如果 OpenAI 和甲骨文新扩容的 4.5 吉瓦项目兑现,那么未来 OpenAI 借助星门计划掌握的 GPU 就有可能冲到接近 250 万张 GPU 的规模。
到 2026 年的超大规模训练集群,来源:SemiAnalysis
7 月 21 日,知名研究机构 SemiAnalysis 基于其数据中心和加速器模型,披露了到 2026 年底,Anthropic、OpenAI 和 Meta 的训练集群数据。SemiAnalysis 列举了 Meta 的另一个 1 吉瓦容量的普罗米修斯数据中心项目,其采用 GB200/300 混搭,GPU 总量达到 50 万张,与我们对亥伯龙数据中心的预估结果基本一致。
能耗方面,1 吉瓦的 GB200 NVL72 数据中心,全年 365 天 24 小时满负荷运行,预计需要 87.6 亿度电。作为对比,日本东京 2023 年全年的用电量也就 1300 亿度。
SemiAnalysis 的跟踪数据中未包含 xAI,但作为 OpenAI 的头号对手,xAI 同样在 " 疯狂 " 投资基础设施。
7 月 10 日,xAI 公布了旗下 Grok 4 模型,马斯克在直播中透露该模型是在一个拥有超过 20 万张 H100 GPU 的超级计算机集群。这句话的重点不止于这个 20 万卡的集群,还在于 xAI 数据集群建设速度上——距离上一个节点 "10 万卡 " 集群建成仅仅过去了 9 个月。
更夸张的是,xAI 旗下首个 10 万卡级别的 Colossus AI 超级计算机集群,从建设到投入运营,耗时 122 天,建设效率 " 卷上天 "。
关于为什么要这么卷基础设施建设,马斯克在直播中透露过自己的逻辑,他强调如果依赖云厂的算力,协调一个 10 万卡的集群,预计需要 18 到 24 个月。" 我们想,18 到 24 个月,这意味着失败是必然的。" 马斯克说。
自建 122 天,协调云厂的算力最快需要 18 个月,这也一定程度上可以解释为什么 OpenAI 不打算和微软一起玩了——靠外部合作伙伴来协调算力效率太低,租赁算力只能作为短期过渡方案,只有自己主导才能可控。
可以想象这样一幅画面:当 OpenAI 推出吉卜力风格图片生成时,奥特曼说 " 我们的 GPU 快要融化了 ",转身向微软协调算力支持却碰了软钉子——得到的回复竟是 " 你再等等 "。此刻的奥特曼,内心恐怕只剩下一声无奈的叹息。
2023-2025 年,AI 基础设施建设资本支出趋势变化 来源:The Business Engineer
回到 xAI 的 20 万卡集群上来,按 H100 单卡 2.5 万美元 -3 万美元的价格,大致可以估算一下成本,整个 GPU 部分的成本就需要 50 亿美元 -60 亿美元,这还不包括基建和运营、维护的成本。
OpenAI、xAI、Meta 在数据中心上的投入,是行业 AI 资本支出扩张的一个缩影。
The Business Engineer 分析师 Gennaro Cuofano 今年 5 月份发布一份研究报告,内容援引硅谷公司的业绩、行业预测数据,梳理了 2023、2024、2025 三个年度硅谷大公司在 AI 上的资本支出,对应数值分别为 1700 亿美元、2560 亿美元、3600 亿美元。
全年 3600 亿美元,折合人民币超过 2.5 万亿元,这个规模相比 2023 年增长超过 110%。更重要的是,大公司的 AI 支出占据了全行业 85% 以上,这也意味着 AI 基础设施建设的 " 马太效应 " 不断强化——未来头部云厂将掌握着行业的核心资源。
巨头们纷纷卷入这场 2.5 万亿美元算力战争,也还有一个值得关注的背景—— OBBB(大漂亮法案)签署通过。
根据法案,科技巨头们的大型数据中心基础设施建设、研发等都可获得税收抵免。以设备全额折旧为例,比如企业购买价值 1 亿美元的服务器等数据中心硬件。 按传统折旧规则需要分 5 年进行,每年只能抵扣 2000 万美元。 根据法案,企业可在购置当年一次性抵扣 1 亿美元应纳税所得额。
业务上有需求,竞争对手都在卷,政策又变相的起到了催化剂作用,都刺激着奥特曼、扎克伯格和马斯克们,迫不及待的再打一场硅谷芯片战争。
如果非要问一个问题,有了百万级的 GPU,人类能打开 AGI 时代的大门吗?
登录后才可以发布评论哦
打开小程序可以发布评论哦