字节跳动再出手!国产GPU的好日子,还在后头?

今年 5 月，黄仁勋那句 " 英伟达已基本上将中国人工智能芯片市场让给华为 "，震惊了整个中国的 AI 芯片行业！彼时坊间对老黄的发言，理解得还不够全面，伴随字节跳动加量采购国产芯片的最新消息传出，不少网友恍然大悟，原来，一切都早有 " 定数 "~

01，张一鸣出手，国产 GPU 熬出头！

6 月 18 日盘中，寒武纪大涨超 16%，创造历史新高，总市值达 9656 亿元，直逼万亿；天数智芯大涨超 15.19%，自今年初上市以来，其股价已涨幅已高达 400%；这两家企业的生猛表现，背后指向同一个令人振奋人心的消息面。

6 月 17 日傍晚时分，权威大媒第一财经报道，字节跳动数据中心建设进展再添新消息，行业人士称字节跳动正与天数智芯讨论采购至少 5 万颗 AI 芯片，主要用于推理工作。

据一财记者多方了解，本次洽谈供货芯片主要用于大模型推理负载，对应天数智芯智铠系列云端推理 GPU，训练场景使用天垓系列。

若交易达成，天数智芯将成为华为和寒武纪之后，字节跳动的第三家 GPU 供应商。

具体而言，线上 C 端豆包、企业 MaaS 海量并发推理引入天数智芯智铠系列等专用推理 GPU，

而大规模模型训练采用华为昇腾、寒武纪高端训练卡，本次洽谈一旦落槌，意味着天数智芯将正式并入字节算力供应版图。

为何字节有如此旺盛的 AI 芯片需求？

答案很清晰也很霸气，因为字节不仅是能批量产出如抖音、今日头条这种国民级传统 App 的大厂，更是还能产出诸如豆包等这种国民级 AI App 的巨头，据 QuestMobile 数据，2026 年一季度，豆包月活达到 3.45 亿。

就是说一个豆包相当于千问（1.66 亿）、DeepSeek 1.27 亿，加上元宝、阿福们的总和。马年央视春晚期间，豆包 DAU 一度狂飙至 1.45 亿，此处我脑海已经涌现出华为余承东总的名场面 " 我们不是第一梯队，我们就是第一 "。

面对日均 Token 调用量突破 120 万亿的海量并发处理任务，必然需要有大量专用 GPU 来支撑低延迟、高并发的在线服务；与此同时，豆包也开启了商业变现模式（付费订阅、企业 MaaS 服务等），那么对算力稳定性的要求也必然高了一个优先级。

所以，张一鸣才会拍板，字节需全力保障优质的算力供应，譬如此次洽谈天数智芯，刚好是 AI 推理领域的佼佼者。

公开资料显示，上海天数智芯半导体股份有限公司是中国领先的通用 GPU 芯片及 AI 算力解决方案提供商，天数智芯通用 GPU 产品涵盖天垓及智铠系列，具有优效能、易迁移、高通用等领先优势，全面兼容国内外主流 AI 生态以及各类深度学习框架。

值得一提的，天数智芯做到了从系统架构、指令集，到核心算子、软件栈的全链路自主研发，并且支持独立发展演进，今年早些时候，天数智芯就曾因率先适配智谱 AI 旗舰大模型 GLM-5 引发行业关注，此番再获字节垂青，技术上的高度自主、数据上的安全可控，或是重要原因。

据香港理工大学研究能耗推算，在超大规模云端设置中由于 " 十亿级别 " 的用户高频请求，推理能耗已占 AI 总能耗约 60% — 90%。中国工程院指出，2026 年一季度中国推理需求已达到训练需求的 8 倍。

国产 GPU 厂商，集体迎来暖春！

02，国产 GPU 厂商靠硬实力，不靠 " 让 "！

旺盛的市场需求叠加政策红利的支持，让国产 GPU 厂商如雨后春笋，当然，真正冲到行业第一梯队的，仍然是少数群体，比如天数智芯，以及大名鼎鼎的华为、平头哥和寒武纪等。

于是，也就到了要微微 " 打 " 一下黄仁勋脸的时刻了，中国的 AI 芯片市场，真的是靠英伟达让出来的？

客观上，懂得都懂的原因，英伟达出口受限，给了一众国产 AI 芯片厂商宝贵的替代机遇，但是，最关键的是，给你机会，你得中用啊。

打铁还需自身硬，中国 AI 芯片崛起，本质上还是因为通过积极创新与产业链上下游的通力协作，最终在技术 & 价格竞争力上的优势使然

以天数智芯举例，它最大的杀手锏就是在复杂系统设计、大型项目重构、端到端工具调用等实际场景中拥有优异的稳定性表现，同时借助动态线程组调度机制，天数智芯精准解决 MoE 架构推理效率低的行业痛点，让大模型的算力利用率大幅提升。

而且成本相较国际方案大幅降低，为各个互联网大厂的旗舰模型的规模化商用与落地大幅降低算力门槛创造了可行性条件。

前面我们提及了字节为何是 " 算力老虎 "，除了 token 的调用量惊为天人之外还有一大重要原因便是字节团体自主研发的一系列明星大模型的训练需求。这些动辄千亿 / 万亿参数级大模型的‌预训练与微调‌，极度依赖这些高带宽、高并行计算能力的训练型 GPU。

这个时候，寒武纪、华为们也就有了大显身手的机会

比如寒武纪自研 MLUarch 架构，支持训练与推理统一开发环境，能减少模型从训练到部署的适配成本，在部分稀疏模型训练中，能耗比能做到只有英伟达同类产品的 85% 以上。

此外其 BANG 编程语言 +MLU-Link 多卡互联技术，也降低了互联网大厂从 CUDA（英伟达生态）迁移改造的成本，提升了国产替代的效率。

华为的超大规模集群凭良好的稳定性表现和万卡级训练任务故障率显著低于行业平均水平更是屡获行业认可，并且还得到了多地政府在 AI 基建（算力）项目中的实际验证。

据深圳特区报，深圳市投建的 11000P 智能算力集群于 3 月 26 日正式点亮，此次点亮的智能算力集群正是全国首个万卡昇腾 910C 超节点智算集群。其投运标志着深圳构建自主可控算力基座上取得突破性进展

该项目全部采用国产先进芯片，依托全栈自主可控技术，项目部分关键技术指标达到国际领先水平。故障率大幅降低，一阶段 3000P 集群实测智算设备日平均故障率为 0.3%，显著低于 Meta 等顶尖企业集群水平。昇腾 +CANN 的自主软硬件生态，影响力日盛！

Wind 统计数据显示，2025 年的中国 AI 加速卡市场，华为（昇腾）的出货量已达到 81.2 万强，占到了 20% 的比例，然后，阿里平头哥、百度昆仑芯、寒武纪、海光信息等 GPU 厂商，都吃到了一定份额的蛋糕。

有理由相信，2026 年开始往后，中国的 AI 芯片市场，英伟达的分额会持续锐降直至触零，届时，" 国产大模型 + 国产算力 " 将成为国民共识，中国的 AI 产业也将开启高质量发展的新阶段！

豆包收费，逻辑成立！ - 互联网那些事

新突破！全国首个万卡级全栈自主可控智算集群点亮 - 深圳特区报

字节跳动加量采购国产芯片，互联网大厂竞速搭建算力护城河 - 第一财经

宙世代