有人在计算架构上不断试探极限,有人在工具链和框架中默默补齐短板,有人在高校课堂和开源社区里播下种子……这不是一家企业的独角戏,而是中国计算产业的集体答卷。
撰文|张贺飞
编辑|沈菲菲
一位从事算法开发的朋友,向我们讲述了他亲身经历的故事:
他所在的团队,被领导安排了一个任务——将已有的图像识别模型从 CUDA 迁移到昇腾平台上。
最开始,他以为会是个 " 大工程 ",时常在论坛里看到缺少算子、工具链不够完善的讨论,想要在昇腾平台上开发 AI 应用,等于是在啃一块硬骨头,连基础的算子都要自己写。
结果竟然比想象中顺利许多。
大部分主流算子已能在 CANN 的算子库中找到,只有少数需要通过算子开发套件自定义实现。官方提供的工具链谈不上成熟,整体来看已经比较完善。最终只做少量修改,就跑通了模型。
一位开发者的际遇,其实是整个生态的缩影。
很长一段时间里,国内计算生态的 " 贫瘠 " 可谓深入人心," 缺算子、缺文档、缺工具 " 等问题被频频诟病。
现在,情况正在悄然改变。昇腾 CANN 的算子库、工具链的不断丰富,让开发者的迁移体验越来越顺畅,论坛里的因为 " 跑不通 " 产生的 " 吐槽帖 ",渐渐变成了 " 怎么跑得更快 " 的 " 经验贴 "。
中国的计算产业,终于走出了至暗时刻。
01.
计算的终局是生态
回顾计算产业的发展史,从不缺少 " 性能耀眼 " 的产品,有的被写进了 " 技术史 ",却没能在产业中占据一席之地。
典型的例子就是 Intel 的 Itanium。
时间回到上世纪 90 年代末,在 x86 上一家独大的 Intel 清楚地意识到:x86 架构的指令集复杂度高,遗留兼容性拖累了架构演进。
于是 Intel 选择和 HP 联手押注 EPIC 架构,把并行性、指令调度等由 " 硬件猜 " 的事交给编译器静态完成,CPU 本身可以更简单、更高效地执行,相当于 " 把硬件未来几十年的负担一次性解决 "。
遗憾的是,Intel 和 HP 都低估了构建软件生态的成本。
当时 Linux 和 Windows 均已绑定了 x86,企业没有动力投入到新架构,开发者想要在 Itanium 上运行应用,必须重写或移植,导致积极性严重不足。被寄予厚望的 Itanium,无奈沦为了 " 昂贵的试验品 "。
和 Intel 形成鲜明对比的,是英伟达 CUDA 的崛起。
2006 年的 GPU 市场,还是英伟达和 ATI 分庭抗礼的局面,就在 AMD 斥巨资并购 ATI 时,英伟达默默做了别人不愿做的事:提供类似 C 语言的编程接口,允许开发者直接把 GPU 当并行处理器使用,即使在市场不看好的情况下,仍然十几年如一日地投资开发者生态,完善工具链、文档和社区。
当深度学习浪潮到来时,CUDA 已然成为事实上的标准,成了任何想做 AI 的团队都难以跳过的选项。
这些成功或失败的案例背后,藏着计算产业的现实:一些产品之所以输掉了未来,不是因为性能不够强,而是没能跨过生态这道坎,没能打动千万计的开发者。技术决定起点,而生态决定了终局。
02.
一道残酷的生死题
既然生态这么难,连 Intel 这样的巨头,当年也没能另起炉灶,为什么还要 " 冒险 " 孵化自己的计算生态呢?
答案很残酷,这不是选择题,而是生死题。
以 AI 应用为例,国内外有不少计算企业想要在生态上走捷径,即兼容 CUDA。简单来说就是在 CUDA 的 API 和芯片的底层驱动间加一个 " 翻译器 ",帮助开发者快速跑通已有的 CUDA 应用,最大程度降低开发者的门槛。
诸如此类的做法无可厚非。
早期靠 " 兼容 " 解决 " 能用 " 的问题,接下来围绕卷积、矩阵乘法、KV Cache 等重点算子做深度优化,一步步实现 " 好用 ",长期则试图培育基于自身软硬件的原生生态,逐渐摆脱对 CUDA 的绑定。
只是 CUDA 并非开源,而且更新非常频繁,第三方产品很难通过指令翻译的方式实现完美兼容。在大多数通用 AI 训练和推理场景下,兼容路径难以匹敌英伟达的性能和能效。
况且英伟达一旦感受到了竞争压力,还可以通过 " 扎紧生态藩篱 " 的形式,倒逼开发者 " 用脚投票 "。就像 2024 年初的一幕,英伟达宣布禁止在其他 GPU 上通过转译层运行 CUDA 软件,给不少厂商敲响了警钟。
计算生态的 " 有 " 与 " 无 ",决定着一整个产业链的生死存亡。
如果是 " 无 ",始终存在被卡脖子的风险,意味着关键软件无法运行、关键应用无法落地,被锁死在别人搭好的舞台上。
哪怕只是 " 有 ",即使暂时不够好用、工具链不够完善,也意味着可以逐步打磨、可以不断迭代,避免彻底出局的风险。
业界不少芯片厂商选择兼容 CUDA 生态时,华为副董事长、轮值董事长徐直军却坦言:" 如果我们投如此多的钱兼容 CUDA 生态,而且还是 CUDA 过去的版本,哪天 CUDA 生态兼容不了了怎么办?"
所以在计算生态的抉择上,华为做了一个很多人不理解的决定——做属于自己的 CANN 生态。
03.
CANN开源开放的 " 阳谋 "
2025 年 8 月初的昇腾计算产业发展峰会上,华为宣布 "CANN 全面开源开放,Mind 系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发,加速广大开发者的创新步伐,让昇腾更好用、更易用。"
在英伟达的封闭生态遭遇 " 信任危机 " 时,华为站在了历史正确的一边——加速开源开放。
CANN 的全面开源开放,意味着开发者可以深入到图优化、算子融合、内存调度等底层机制,不仅可以调用,还能看到底层实现逻辑,甚至在必要时改造、优化,进行二次创新。
Mind 系列工具链的开源,让模型移植、调试、Profiling 的全过程 " 白盒化 ",开发者不再局限于现成的工具和框架,可以根据自身需求进行深度定制和优化,实现更高的性能和效率。
CANN 还进一步兼容了 vLLM、SGLang、PyTorch、Tensorflow 等主流框架,开发者将应用迁移到昇腾平台时,无需对原有代码进行大规模修改,只需做少量适配乃至 " 零改动 "。
故事并未就此结束。
9 月 18 日的华为 HC 2025 上,华为的硬件和超节点架构占据了多家媒体的头条,其实还有另一个影响可能更深远的动作——华为宣布将开放灵衢 2.0 技术规范,全面开放超节点技术,包括开放超节点参考架构、开放超节点基础硬件、开源操作系统灵衢组件等等。
无论是昇腾 384 超节点,还是支持 8192 张卡的 Atlas 950 超节点,都是基于灵衢互联协议开创的。底层技术协议和整套超节点技术的开放,意味着产业界可以基于技术规范自研相关产品或部件,自主设计基于灵衢的各种产品,实现真正意义上的 AI 算力自由。
个中逻辑并不难解释。
只有走开源路线,降低产业参与门槛,才有更多的企业从中受益,才会让更多的开发者敢于 All in。华为通过硬件开放、软件开源主动拆掉了最核心的 " 护城河 ",用 " 技术让利 " 换取 " 生态复利 ",吸引全球的开发者参与进来,促进产业链上下游协同,形成良性的正反馈循环。
一组不应该被忽略的数据是:CANN 全面开源开放 48 小时内,昇腾开发者社区新增注册用户就超过了 10 万,Gitee 平台上的 CANN 代码库收获了 5.7 万星标,向外界宣示了中国计算生态的号召力和凝聚力。
04.
前路漫漫亦灿灿
客观评价 CANN 代表的国产计算生态,必须承认仍处于 " 追赶 " 阶段,在成熟度、应用广度、生态完善度上和 CUDA 仍有差距。毕竟 CUDA 已经打磨了近 20 年,CANN 在 2018 年才推出。
有差距不代表没机会,大模型技术正在重构千行万业,也在加剧底层计算生态的重新洗牌。
比如华为一直积极与高校合作,通过编写教材、开设实验课、联合研发等方式,将昇腾、鲲鹏生态纳入到了人才培养体系,同时帮助高校和科研机构在国产平台上进行前沿研究。
典型例子就是北京大学的杨智老师,基于 Ascend C 自主开发了 AI 编程语言 TileLang,提供 Tile-level 的类 Python 编程方式,大幅降低了 AI 编程门槛。目前昇腾 CANN 与 TileLang 已对接,并完成了 FlashAttention 算子的开发实现,性能持平官方版本,核心代码从 500+ 行减少到了 80 行。
某种程度上,昇腾已经初步形成了 " 教育—应用—生态 " 的闭环:学生们在求学阶段就能接触到国产计算生态,在实验室里尝试开发应用,毕业后应用到广阔的产业场景中,为生态的繁荣持续注入 " 新鲜血液 "。
再比如在大模型领域,MoE 架构逐渐成为提升参数规模和推理效率的主流路径,却也遇到了跨卡通信的高带宽压力、专家路由的动态调度等新挑战。除了超节点的架构创新,CANN 也进行了针对性优化。
在算子开发方面,CANN 将在下个版本中同时支持 SIMD+SIMT 的编程方式,满足不同场景的开发需求:其中 SIMD 新增支持的 Cube 和 Vector 融合编程,无需写数据搬运指令,实现融合算子开发效率提升 30%。
在通信效率方面,昇腾将开源共享内存能力 Share Memory,在超节点范围内的所有片上内存可实现资源池化共享,并通过 Load and Store 方式通信,较传统通信时间大幅降低。
截止到目前,越来越多的第三方企业和开发者与华为站在一起,加入到了开源共建的阵营中。
比如无问芯穹基于 CATLASS 模板库开发的 Group GEMM 算子,相比 aclNN 算子,性能再提升 50%;科大讯飞、华南理工等企业和高校,在不断丰富算子开发的专家知识库,几分钟内便可输出最优 Tiling 策略 ......
一边在人才培养上 " 补短板 ",一边在工程创新上 " 立长板 ",只要沿着正确的道路走下去,一个繁荣的计算生态只是时间问题。
05.
写在最后
计算生态的范畴不只是 AI 算力,CPU、操作系统等都需要从 0 到 1 构建自主生态,每一个都深刻影响着整个产业格局。
乐观的是,CANN 的崛起已经论证了自主生态的可行性,跑出了开源开放的生态新范式:有人在计算架构上不断试探极限,有人在工具链和框架中默默补齐短板,有人在高校课堂和开源社区里播下种子……这不是一家企业的独角戏,而是中国计算产业的集体答卷。
生态不是三年五载就能完成的工程,需要千千万万的开发者参与进来,考验的不是速度,而是中国计算产业的集体耐力。
主理人 | 张贺飞(Alter)
前媒体人、公关,现专职科技自媒体
钛媒体、36kr、创业邦、福布斯中国等专栏作者
转载、商务、开白以及读者交流,请联系个人微信「imhefei」


登录后才可以发布评论哦
打开小程序可以发布评论哦