智东西 3小时前
国产“GPNPU”要发力了!All in AI大算力芯片,明年对标英伟达Blackwell
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 漠影

2026 年,AI 产业的重心迁移,愈发清晰。随着 AI 全面进入规模化落地阶段,驱动 AI 推理需求快速增长的 " 三驾马车 " 正在成型。

其一,应用全面铺开是最直接的动力。产业已从百模大战步入了应用竞赛与价值验证阶段,高频交互与内容生成持续发生,形成稳定而庞大的推理需求基础——国内的头部 AI 应用,日均 Token 消耗已达到约 50 万亿规模,成为推理负载快速累积的一个典型样本。

其二,推理模型范式的兴起从结构上抬升了推理需求。新一代推理模型不只追求快速作答,更是依赖多步推演与链式思考来提升准确性,使单次调用的推理 token 显著增加。海外大模型调用平台 OpenRouter 的统计显示,2025 年,来自推理模型的用量在 2024 年初尚可忽略,但至年底已占平台总用量的 60% 以上,直观体现了推理需求的结构性上升。

其三,Agentic AI 开启长期增长空间。以年初 OpenClaw 等为代表的 Agent 产品热度不断攀升,它们具备自主规划与长时间执行能力,需要在持续运行中不断推理与反馈,推理由单次请求演变为连续过程,推理需求进一步呈现指数级放大。

三股力量相互叠加,推动推理走向产业中心,也促使算力结构从以训练为核心,转向以高性价比、低延迟和能效优化为导向的推理时代。

这一转变不仅推动全球科技巨头重新布局算力战略,也成了多家国内 AI 芯片企业重点发力的方向。未来五至十年,或许将成为 AI 推理芯片的关键发展期。

一、海外巨头加速布局,推理芯片成下一个风口

全球科技巨头,都在竞相加码 AI 推理芯片这一赛道。

去年 4 月,谷歌发布了其第七代 TPU 芯片 Ironwood。谷歌分管全球 AI 和基础设施团队的副总裁 Amin Vahdat 强调,这是谷歌史上最节能的 TPU,专为支持思考、推理类模型的大规模应用而设计。

谷歌认为,Ironwood 代表着 AI 及对应基础设施的重大转变,从提供实时信息供人类解读的响应式 AI,转变为主动生成解读的下一代 AI,迎来 " 推理时代 "。

在大规模推理场景下中,TPU 在成本、效率上对传统 GPU 架构形成实质性竞争,因此甚至吸引了 Anthropic、Meta 等顶级客户的关注,并已斩获数十亿美元的订单。

无独有偶,去年 12 月,英伟达的一项重磅交易,在 AI 芯片产业内引发了广泛关注。

英伟达与美国 AI 芯片创企 Groq 达成价值约 200 亿美元非独家授权协议,并吸纳 Groq 的联合创始人 Jonathan Ross、总裁 Sunny Madra 以及 Groq 团队的其他成员。这项协议的核心,正是 AI 推理技术。

黄仁勋称,英伟达计划将 Groq 的低延迟处理器集成到英伟达 AI 工厂架构中,以服务于更广泛的 AI 推理和实时工作负载。

值得注意的是,Groq 创始人兼 CEO Jonathan Ross 曾是谷歌 TPU 创始成员。在谷歌率先验证了专用芯片在 AI 训练与推理中的规模化价值后,英伟将这一关键技术路径及其核心人才纳入体系之中,某种程度上体现出其对推理时代技术范式转向的主动回应。

由此可见,AI 推理芯片的技术路线正加速走向多元化。相较性能强但成本高企的通用 GPU,面向特定推理负载优化的专用芯片在能效、延迟与边际成本上具备清晰的经济合理性。

英伟达选择通过引入 Groq 技术来拓展架构边界,表明其并不满足于单一 GPU 路径,而是在推理时代到来之前,主动构建更具弹性的算力体系与生态纵深。

二、算力瓶颈已成制约因素,GPNPU 或成国内破局关键

把视角转向国内,由于贸易限制等各方面因素,高效的推理芯片对国内 AI 产业的价值,有过之而无不及。

我们能从不少国内 AI 头部玩家的动向中找到蛛丝马迹。今年 1 月,阿里千问大模型负责人林俊旸向外界披露了一个行业可能共同面临的窘境:交付工作占据了大量算力资源,甚至在某种程度上挤压了科研空间。

刚刚发布 Kimi K2.5 的月之暗面,也在为算力发愁。有海外观察者指出,Kimi K2.5 目前最大的瓶颈是算力,而不是模型质量。没有足够算力,就无法提高每秒生成的 token 数量(TPS),而 TPS 直接影响着用户体验。

对此,月之暗面联合创始人兼算法团队负责人周昕宇回应道:" 流量每天都在飙升,我们正竭尽全力争取更多算力。"

林俊旸、周欣宇谈到的现实情况只是一个切片,这揭示了推理成本与效率已经成为国内不少 AI 企业面临的挑战,即便是他们这样的头部玩家。

若无法击穿推理成本的壁垒,就很难将 AI 转化为普惠的生产力,也难以腾出算力来支持那些需要长线、大规模算力投入的前沿研究。

面临国内 AI 产业的现实挑战,已有一大批 AI 芯片企业正从不同技术路径切入,试图攻克推理效率的难题。其核心思路可以归纳为:在硬件层面通过架构创新提升性能上限,在系统层面通过软硬协同释放实际效能。

在这一背景下,长期深耕 AI 推理芯片的云天励飞,于昨日的 " 大算力芯片战略前瞻会 " 上,首次对外系统公布了未来三年的大算力 AI 推理芯片战略布局。

云天励飞董事长兼 CEO 陈宁判断,在 AI 大规模落地的阶段,产业需要的不再是通过十万卡 / 百万卡互联提供绝对算力的 GPGPU(通用 GPU),而是更高性价比的推理芯片。

与众多布局 GPGPU、更主打训练市场的国内芯片创企不同,云天励飞是国内首家聚焦于 AI 推理芯片的企业,曾推出四代面向终端、边缘的 AI 推理芯片。

陈宁透露,在 2025 年,云天励飞做出了一个重要的战略转向:斩钉截铁的把芯片战略聚焦在云端的大算力、大模型的推理芯片。

云天励飞正在做的,是被定义为 "GPNPU" 的芯片。GPNPU 不只是一个处理器架构,更是一套围绕大模型推理而构建的技术范式和系统级架构理解,在 " 好用 " 和 " 高效 " 之间实现某种程度的平衡。

云天励飞 CTO 李爱军谈道,云天励飞的 GPNPU 在顶层采用具备 GPGPU 级通用编程能力的架构,通过兼容 CUDA,使得当前几乎所有基于 GPU 训练出来的模型和算子,都可以低成本、低门槛地平移到云天励飞的芯片上,真正做到 " 一行代码 " 完成从 GPU 到国产芯片的部署迁移,解决国内芯片生态最现实的易用性问题。

另一方面,在底层计算上,GPNPU 又充分发挥 NPU 的优势,通过自定义指令集和专用计算单元,在单位硅面积上实现远高于通用 GPU 的计算密度和能效比,专注于推理场景所追求的极致效率与极低成本。

围绕大模型推理 " 内存墙 " 的核心瓶颈,GPNPU 进一步引入国产工艺条件下的3D memory 架构,在设计上实现了超过 HBM 十倍以上的内存带宽,同时具备 10 纳秒级的访问时延和更低的综合成本,从系统层面释放推理性能。

更重要的是,考虑到国产制程和单 Die 能力的现实限制,云天励飞率先提出并持续深耕" 算力积木 " 架构,也就是把多个芯粒像积木一样组合,实现算力的规模化扩展。

去年,云天励飞完成了 8 个算力 Die 的单芯片封装的验证,可实现 DeepSeek 671B 大模型的推理部署。

GPGPU 的通用性、NPU 的极致能效、3D memory 的超带宽以及 Chiplet 算力积木这四个方向的融合,构成了 GPNPU 的完整内涵,也让它成为云天励飞所定义的云端大模型推理芯片的一种最优实现路径。

三、All in 大算力芯片,云天励飞揭秘三代路线图

会上,李爱军透露,未来三年,云天励飞将面向云推理场景,All in 大算力芯片,把资源投入大算力芯片 DeepVerse 的研发。那么,云天励飞的打法究竟是什么,又要如何在云推理这一核心战场上与全球巨头展开竞争?

云天励飞已对大模型推理流程进行了重新解构,围绕 prefill 与 decode 两个阶段在计算特性上的显著差异,提出并落地了PD 分离的系统架构:即针对不同阶段分别设计专用芯片,从系统层面对传统推理计算范式进行重构。

这一思路试图突破通用 GPU 在推理场景下 " 兼顾训练与推理 " 所带来的效率瓶颈,为云端大模型推理构建更具针对性的算力基础。

在架构与微架构层面,云天励飞围绕大模型推理中的核心算子进行了深度定制化优化。其中,P 芯片主要面向 prefill 阶段计算密集型需求,重点提升百万上下文场景下的吞吐能力与能效表现;D 芯片则针对 decode 阶段访存密集、低时延的特点,对 attention、FFN 等关键计算路径进行细粒度优化,以降低单 token 推理时延。

在系统层面,云天励飞进一步布局超节点,计划通过最多1024 颗 P/D 芯片的协同,满足云端大模型在大规模集群环境下的部署需求。

云天励飞已对外披露了较为清晰的芯片演进路线。

今年,他们计划推出第一代超节点 P 芯片,重点服务于百万级长上下文场景,对 prefill 推理进行专项优化,其整体算力目标对标英伟达 Hopper 架构的芯片。

明年,云天励飞将推进第一代超节点 D 芯片研发,主攻 decode 阶段的超低时延推理,目标算力水平对标英伟达 Blackwell 架构的芯片。

按照规划,到 2028 年,第二代超节点 D 芯片有望实现毫秒级推理时延,并在整体推理性能上具备对标英伟达下一代 Rubin 架构的潜力。

针对行业普遍关注的供应链安全问题,云天励飞高级副总裁、CFO 兼董秘邓浩然特别强调,云天励飞目前是国内屈指可数手握充足国产产能保障的企业之一,这一战略储备为后续芯片的大规模量产与交付提供了较高的确定性。

陈宁认为,能源、芯片、基础设施、模型和应用构成了 AI 推理的基础设施,而我国在能源、基建与应用场景上都具有优势,只要补齐模型与芯片的短板,中国的 AI 就有巨大的发展的机会,就有可能引领第四次工业革命。

结语:要做智能革命中的 " 瓦特 " 和 " 爱迪生 "

在前瞻会上,云天励飞已经释放了一些极具冲击力的信号。陈宁称,在商业落地方面,他们已拿下 16 亿元的智算大单,并计划打造赋能城市的千卡集群。

那么,云天励飞究竟想成为一家什么样的公司?陈宁回顾第一次工业革命的历史,向外界展现了云天励飞的终极愿景:说起工业革命,大家往往想到的是蒸汽机和电力,但事实上,蒸汽机的发明者并不是瓦特,灯泡的发明者也不是爱迪生,他们真正的价值在于将技术进行大规模商业化改良,大幅降低成本,推动技术走向普及。

而云天励飞,正是希望在人工智能时代,成为人类第一次智能革命中的 " 瓦特 " 和 " 爱迪生 "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 英伟达 谷歌 ai芯片 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论