
5.2 万片交付背后:国产 GPU 规模商业化进入 " 放量期 "。
作者 | 李水青
编辑 | 漠影
在大模型浪潮席卷全球、算力成为核心竞争力的当下,国产高端芯片的进展备受瞩目。
尤其在生成式 AI 走向规模化应用之后,训练效率、推理成本、系统稳定性,正在深度反作用于模型能力。仅是实验室指标与参数竞赛,不足回答市场对国产算力 "能否真用、是否好用" 的拷问。
近日,国产通用 GPU" 四小龙 " 之一的天数智芯,在上市后的首次生态合作伙伴大会上,给出了一份系统性的回应——罕见地一次性亮出了三张关键 " 底牌 ":
1、首次完整公布天枢、天璇、天玑、天权四代 GPU 架构路线图,明确提出分阶段对标并超越 NVIDIA Hopper、Blackwell、Rubin 架构的技术目标。
该公司在 2025 年已经迈出第一步,天数天枢整体效率较当前行业最优水平提升约60%,在 DeepSeek V3 的实测中实现超20%的表现。

2、正式推出" 彤央 " 系列四款边端 GPU 新品,实测稠密算力覆盖 100T — 300T 区间,性能指标全面超越 NV AGX Orin;
3、首次对外披露商业落地成果,截至目前已服务超 300 家客户,完成 1000 余次部署,累计交付通用 GPU 超5.2 万片。
天数智芯董事长兼 CEO 盖鲁江在会上强调,AI 算力需 " 以全栈自研筑牢生态根基 "。
此次发布,这家国产 GPU 代表企业已不局限于单点突破,而是试图从技术路径、完整产品和可复制商业化三个维度,构建一个更具确定性的产业未来。
01.
首发三年超越路线图:
国产通用 GPU 不止于 " 可用 "
与以往国产 GPU 企业更强调 " 当代产品对标 " 不同,天数智芯此次发布的一大变化,就是给出了一个明确的时间维度。
天数智芯首次系统性披露了2025-2027 年的架构演进路线图。在天数天枢、天数天璇、天数天玑、天数天权四大系列架构框架下,其技术目标被清晰地映射到国际主流 GPU 架构的代际节奏之中:
2025 年,天数天枢架构实现对英伟达 Hopper 架构的超越;
2026 年,天数天璇架构对标 Blackwell,同年天玑架构实现对其的全面超越;
2027 年,天数天权架构将超越下一代的 Rubin 架构。
在此之后,公司的目标将转向 " 突破性计算芯片架构 " 的原创性设计。
这释放了一个强烈信号——天数智芯不再回避与全球 GPU 技术主线的正面对照,而是将自身演进节奏直接嵌入到同一技术坐标系中。
天数智芯 AI 与加速计算技术负责人单天逸认为,专用芯片就像应试教育,在限定的 " 题库 " 里去完成计算任务。而天数所代表的通用芯片是为了回归计算本质,支持所有类型的计算。它既能高效支持的当前热点任务,也能支持那些我们还没想象到的全新算子、全新架构。

" 我们始终坚信,不应让算力的僵化限制算法进化,硬件绝不应该成为束缚算法探索的枷锁,而要成为孵化新算法的坚实底座。" 单天逸将天数芯片比作新世纪的 " 算力风洞 ",意在为研究者探索智慧的本质与边界提供基础工具。
为了实现这种面向未来的通用性与高效能,天数智芯在架构层面进行了系列创新。这一路线图并非简单的算力堆叠,而是围绕通用计算效率的系统性优化展开:
1、TPC Broadcast 设计,算力的核心瓶颈是带宽,天数智芯不单纯放大带宽,而是追求单位带宽最优效果。当检测到相同地址数据时,芯片内部 Load Store 单元避免无效访问,在上游进行广播,大幅降低缓存功耗,等效提升缓存带宽,以更小功耗和面积实现同等功能。
2、Instruction Co-Exec 设计,实现多类指令并行运行,除 Tensor Core、Vector Core 外,新增 Scalar Core 及指数、通讯等操作,通过 X-Schedule 模块以最低成本提升多指令并行处理能力,从容适配 MMA、各类算子及 DeepSeek V4 等模型。
3、Dynamic Warp Scheduling 设计,微架构可驻留更多 Warp,通过动态调度实现 Warp 有序协作,避免资源争抢与闲置,持续输出算力。
值得一提的是,这些技术并不是针对某一个模型或某一类负载的 " 定制化性能 ",而是一种长期可扩展的通用 GPU 架构逻辑。
对产业与投资界而言,这份路线图的价值在于提供了难得的 " 可预期性 "。它标志着国产高端 GPU 的竞争,正从初期的 " 解决有无问题 " 和 " 单点性能比拼 ",迈入一个有明确技术爬坡路径、可被持续验证的新阶段。
02.
云边端全栈落地:
" 彤央 " 系列补齐边端算力拼图
如果说路线图解决的是 " 向哪里走 " 的问题,那么产品矩阵则决定了 " 如何走 "。
本次大会的另一重头戏,是天数智芯正式发布了其边端算力产品系列—— " 彤央 "(TY)。" 彤央 " 系列一次性推出了四款新品:TY1000、TY1100、TY1100_NX 和 TY1200,覆盖 100T-300T 的实测稠密算力区间。在多项关键指标上,这一系列产品已全面超越同级别的英伟达 AGX Orin。
但相比性能数字本身,更值得关注的是彤央系列的产品定位逻辑。
" 彤央 " 系列并非简单意义上的 " 算力下沉版 GPU"。天数智芯边端事业部负责人郭为谈道,其产品定位是围绕 "物理 AI" 这一前沿趋势进行系统级设计。所谓 " 物理 AI",即让 AI 不仅 " 会说话 ",更能 " 会干活 ",理解并反馈物理世界规律,这正是具身智能机器人、高级别自动驾驶、智能工厂等场景的核心需求。

以性能最强的 TY1200 为例,它不仅在紧凑的机身内容纳了 300TOPS 的算力,更搭载了完整的异构算力调度框架,能够充分协调 CPU 与 GPU 资源。这一特性使其能够应用于" 机器人大小脑融合 "这类复杂场景——传统上,机器人的运动控制(" 小脑 ")与感知决策(" 大脑 ")由不同模块处理,容易因通信延迟导致动作不协调。TY1200 的高集成度与强算力,为在一颗芯片上实现协同控制提供了可能。
实测数据证明了其产品力。在计算机视觉、自然语言处理乃至 DeepSeek-32B 大语言模型等多个场景的测试中,彤央 TY1000 的性能表现均优于市场主流产品英伟达 AGX Orin。
" 彤央 " 系列还考虑到客户已有硬件方案的替换成本问题。该系列全部采用标准化的 699Pin 接口设计,在硬件上与英伟达 Orin 系列产品实现了 "Pin-to-Pin" 兼容,从而极大降低替换成本。
可以看到,通过统一的通用 GPU 架构、开放的软件生态以及一致的开发接口,天数智芯试图在 " 物理 AI" 趋势尚未全面爆发之前,提前完成算力形态的卡位。
至此,天数智芯已经形成了覆盖云端训练(天垓)、推理(智铠)以及边端计算(彤央)的完整全栈自研算力矩阵。在架构层、软件层和系统层实现统一,使得模型可以在不同算力形态之间平滑迁移。
值得一提的是,这种 " 全栈自研 " 的能力并非没有技术门槛。从单卡性能,到多卡互联,再到千卡级集群的稳定运行,每一层都涉及架构设计、驱动优化与系统工程能力的长期积累。天数智芯披露,其千卡级集群已稳定运行超过 1000 天,验证了其系统的成熟度。
03.
5.2 万片交付背后:
国产 GPU 商业化放量
任何一条技术路线,最终都必须接受商业化的检验。
天数智芯此次发布会的第三大焦点,便是首次体系化地公开了其规模化商业落地成果,以实实在在的数据回应了市场关于国产 GPU" 能否用好 " 的疑问。
其披露的最新数据显示,天数智芯已向金融、互联网、医疗、交通、科研等超过 20 个行业的超 300 家客户,完成了超过 1000 次行业部署,数千卡集群稳定运行 1000 天。
天数智芯副总裁邹翾在演讲中列举了一系列案例:在互联网领域,其产品帮助头部客户将 AI 客服的 Token 处理成本降低了一半;在金融行业,基于其加速卡的研报生成效率提升了 70%,量化交易决策响应可达毫秒级;在医疗场景,结构化电子病历的生成时间从数分钟缩短至 30 秒,肠胃镜病灶的 AI 辅助定位精度提升了 30%。

另一个优势是敏捷的模型适配能力。面对国内大模型以 " 季度 " 为单位的迭代速度,天数智芯通过与主流模型团队深度合作,实现了 "多数大模型发布当天即可跑通"。目前,其平台已支持超过 150 种模型及变种稳定运行。例如,从 DeepSeek V3 升级到 V3.2,因其已预先支持 95% 的算子,客户仅需调整不到 2% 的模型结构即可完成适配。
这种广泛的行业覆盖与深度应用,反过来也锤炼了其产品与解决方案的成熟度。郭为在问答环节坦诚分享道,早期拓展市场时面临更多的是客户的 " 排斥与冷淡 ",尤其是那些纯粹基于性价比和稳定性做选择的商业客户。
破局之道在于 " 技术实力 "。只要客户愿意尝试,工程师便快速进场,通过深度调优呈现超出预期的性能,逐步建立信任。他甚至透露,一些深度合作的客户在两年内通过反馈机制提出了数百个问题或建议,这些来自真实场景的 " 压力测试 " 和需求输入,成为了产品迭代升级最宝贵的动力。
在 GPU 竞争中,生态始终是决定成败的核心壁垒。天数智芯对此有着清醒认知,其将 "易迁移" 作为核心竞争力之一,在软件接口层深度兼容 CUDA 等主流开发生态,支持 PyTorch 等主流框架,尽量避免客户为迁移付出额外学习成本。
从其商业化放量的财务数据看,2022-2024 年,营收从 1.894 亿元增长至 5.395 亿元,复合年增长率高达68.8%;2025 年上半年营收达 3.243 亿元,同比增长64.2%。这些财务数字背后,是一个已经跑通并进入放量增长阶段的商业闭环。
04.
结语:算力竞争
正在回归长期主义
回顾整场发布会,天数智芯反复强调的关键词并非 " 替代 ",而是 " 赋能者 "。
其通用 GPU 架构已兼容 PyTorch、xllm 等主流框架,支持 150 余种模型稳定运行;在实际项目中,开发与迁移成本仅为部分竞品的三分之一;并已完成与主流 CPU、服务器厂商及云平台的系统级适配。
在智能社会逐步成型的过程中,真正稀缺的,并不是某一代芯片的峰值性能指标,而是一个能够持续支撑算法演进、应用扩展与产业规模化的底层算力平台。
从清晰的路线图,到完整的产品矩阵,再到正在放量的商业化数据,天数智芯正在给出一种更偏长期主义、也更具产业确定性的答案。
国产 GPU" 行不行 ",或许不再需要一句口号式回应,而正在被一项项工程进展与商业结果,逐步写入现实。


登录后才可以发布评论哦
打开小程序可以发布评论哦