Alter聊科技 6小时前
SOTA模型也能“全栈国产”?智谱联合昇腾和昇思给出了硬核答案
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天是一个图像模型,明天可能就是万亿参数的多模态 " 巨兽 "。

撰文张贺飞

编辑沈菲菲

过去两年里,国内 AI 圈有一个心照不宣的 " 焦虑 ":国产算力已经满足了大规模的模型推理需求,可大模型的训练,特别是 SOTA 级模型的预训练,还是无法摆脱对英伟达生态的依赖。

2026 年注定是一个分水岭。

刚登陆港股市场的智谱,发布了新一代图像生成模型 GLM-Image,在文字渲染的权威榜单中达到了开源 SOTA 水平,并在 " 出生证明 " 上写了一段关键信息:模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架,完成了从数据预处理到大规模训练的全流程构建,验证了在自主创新算力底座上训练前沿模型的可行性。

全流程、SOTA、自主创新算力底座……每一个词,都是对 " 国产算力不好用 " 等刻板印象的有力回击。同时也预示着,国产算力已经从 " 跑推理 " 正式迈向 " 数据预处理 + 预训练 +SFT 微调 +RL 训练 " 的端到端全流程,从 " 能用 " 进阶到了 " 好用 "。

-  01  -

场 "地狱级"难度的压力测试

在讨论算力前,有必要先理解 GLM-Image 的 " 含金量 "。

如果只是训练一个 " 二流模型 ",对算力的考验也是 " 二流 " 的,而智谱瞄准了下一代技术范式——认知型生成。

过去的图像生成模型,普遍存在 " 智商不够 " 的瓶颈。比如让 AI 画一张 " 关于量子力学的科普海报 ",可以画出炫酷的原子结构和星空背景,但上面的文字却是乱码,典型的 " 视觉强,认知弱 "。

智谱 GLM-Image 没有照搬开源常用的 LDM 方案,采用了创新的 " 自回归 + 扩散编码器 " 混合架构,属于兼具世界知识与推理能力的 " 认知型生成 ",不仅要会画画,还要理解物理规律、逻辑关系和文字符号。

可以简单地比作是 " 大脑 " 和 " 画师 " 的组合:

9B 大小的自回归模型,扮演了 " 大脑 " 的角色,利用语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;

7B 大小的 DiT 扩散解码器,像一个技法高超的 " 画师 ",专注于还原图像的高频细节和文字笔画,改善模型 " 提笔忘字 " 的现象。

基于架构上的创新,GLM-Image 在通用图像生成质量上能够对齐业界主流隐空间扩散模型方案,在文字渲染与知识密集型图像生成场景中展现出了显著优势,以及出色的多分辨率自适应能力,原生支持从 1024x1024 到 2048 × 2048 尺寸的任意比例图像的生成任务。

参考行业惯例,先来 " 跑个分 "。

在考察模型在图像中同时生成多处文字准确性的 CVTG-2K 榜单上,GLM-Image 凭借 0.9116 的 Word Accuracy(文字准确率)成绩,位列开源模型第一。特别是 NED(归一化编辑距离)指标上,GLM-Image 以 0.9557 的得分领先,生成文字与目标文字高度一致,错字、漏字情况更少。

考察模型渲染长文本、多行文字准确性的 LongText-Bench,覆盖了招牌、海报、PPT、对话框等 8 种文字密集场景,并分设中英双语测试,GLM-Image 以英文 0.952、中文 0.979 的成绩位列开源模型第一。

比 " 跑分 " 更有说服力的是,GLM-Image 开源不到 24 小时就冲上全球知名 AI 开源社区 Hugging Face 榜单的全球第一。

只是架构越先进,对算力底座的挑战越大。既要满足 LLM 对显存和序列长度的极高要求,同时解决图像生成对高并发计算的吞吐需求,对任何算力底座来说,都是一场 " 地狱级 " 的压力测试。

-  02  -

智谱、昇腾、昇思的协同 " 破壁 "

面对行业 " 无人区 ",智谱和昇腾 . 昇思是怎么破局的呢?

智谱官方公众号给出了答案:" 依托昇腾 NPU 和昇思 MindSpore AI 框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,我们自研了模型训练套件,全面优化数据预处理、预训练、SFT 和 RL 的端到端流程。"

做个 " 翻译 " 的话,主要解决了模型训练的三个核心痛点。

第一个是动态图多级流水下发。

在大模型训练的过程中,存在一个经典的 "Host-Device" 协同问题:Host 侧(CPU)负责下发指令,Device 侧(NPU)负责计算。但 NPU 算得太快了,CPU 发指令的速度跟不上,导致 NPU 经常处于 " 等活干 " 的空转状态。

昇思 MindSpore 引入了 " 动态图多级流水下发 " 机制,可以理解为将原先串行的 " 接单 - 备菜 - 炒菜 " 流程,变成了高度重叠的流水线:NPU 炒上一道菜的时候,CPU 已经在处理下一道菜的订单了。结果是惊人的,Host 侧的并行度与下发效率大幅提升,整体训练性能提升了 20%。

第二个是多流并行执行。

在多模态训练场景中,文本梯度同步、图像特征广播、混合并行等操作,会产生海量的通信需求。

传统模式下,计算和通信往往是串行的—— " 路通了再走车 ",昇腾的 " 多流并行执行机制,相当于给计算和通信修了座 " 立交桥 ",通过共用内存池,允许计算和通信同时运行,而且不同通信域还能单独分配 " 车道 ",充分利用网络带宽消除通信串扰,让整体训练性能又提升了 10%。

第三个是高性能融合算子。

做过大模型训练的工程师都知道,最大的噩梦就是扩散模型训练后期的 Loss 震荡。

为了解决这个问题,昇腾 CANN 高性能算子库提供了多种高性能融合算子,包括 AdamW EMA 融合算子,缓解扩散模型训练后期 loss 震荡问题,使收敛效果更稳定;COC 通算融合算子,使用集合通信创新算法,用计算掩盖多机多卡场景 TP 域中 ReduceScatter 和 AllGather 等核心通信算子的通信开销,将通信效率提升了 15%。

正如我们所看到的,GLM-Image 不但验证了在自主创新算力底座上训练高性能多模态生成模型的可行性,更在权威榜单中达到了开源 SOTA 水平,诠释了自主创新算力底座在模型训练环节的无限可能。

-  03  -

中国计算产业破局的 " 新范式 "

GLM-Image 的从 0 到 1,预示着 AI 产业的一次深刻变革。

过去一段时间,外界习惯了 " 大力出奇迹 ":只要堆叠的显卡足够多、带宽足够宽,似乎没有什么模型是跑不起来的。

时间来到 2026 年," 认知型生成 " 渐渐成为新的技术范式,模型的架构越来越复杂,既要 LLM 的逻辑推理能力、生成模型的渲染能力,甚至还要有视频理解的时空建模能力。

面对动态变化的计算需求," 堆算力 " 已经捉襟见肘,如果不进行底层创新,有效算力将被大量的通信开销和内存墙吞噬。

智谱和昇腾 " 背靠背 " 的作战,示范了模型反向定义算力底座的可能:比如为了配合语义 Token 的理解,专门优化底层的通信流;为了解决混合架构的收敛难题,深度定制融合算子……大模型厂商和算力企业不再是 " 甲方乙方 " 的关系,而是联合攻坚作战的 " 队友 "。

除了技术上的 " 账 ",还有商业上的 " 利 "。

" 自回归 + 扩散编码器 " 的混合架构,兼顾全局指令理解与局部细节刻画,创造性地解决了海报、PPT、科普图等知识密集型场景生成难题。按照常理推断,模型越复杂,计算量越大,成本就越高。但智谱官方公开的数据却是:在 API 调用模式下,GLM-Image 生成一张图片仅需 0.1 元。

图:GLM-Image 生成图片示例

在智能体时代,一个复杂任务(比如设计一张双十一促销海报)可能需要 AI 在后台进行数十次的自我迭代、草图绘制、反思修改,最终才输出一张成品。倘若生成一张图的成本要几块钱,多步推理的智能体将被局限在实验室,在商业上根本跑不通。

智谱和昇腾 . 昇思的协同创新,通过计算效率的提升和算力利用率的优化," 抹平 " 了复杂架构带来的 " 额外成本 ",赋予了 GLM-Image 极致的性价比,让 AI 生图从一个需要小心翼翼计费的 " 工具 ",变成了电商、广告、社交媒体等行业的 " 白菜价 " 基础设施。

沿循这样的逻辑,接下来的 AI 竞争,比拼的不只是谁的算力多、模型强,还在于是否拥有 " 算法 - 框架 - 芯片 " 三位一体的垂直整合能力:在训练端,稳定、高效地进行大模型训练;在推理端,低成本推进产业落地。

像智谱和昇腾一样,拆掉模型和算力之间的墙,进行深度的软硬协同,或将成为计算产业的新范式。

-  04  -

写在最后

GLM-Image 的一小步,或许是中国 AI 生态的一大步。

中国最顶尖的算法团队叠加最硬核的算力底座,蹚过了最深的水,踩过了最痛的坑,最终用一份开源 SOTA 的成绩单告诉行业:用自主创新算力底座训练大模型的路,不仅能走通,还能走得快、走得远。

当然,也要清醒地看到,国产算力生态依然有差距,但 GLM-Image 撕开了一道口子,光已经照进来了。今天是一个图像模型,明天可能就是万亿参数的多模态 " 巨兽 "。

推荐阅读

 《人形机器人的 2025》

 《智能汽车的第二增长曲线》

 《AI 开始替游戏厂商赚钱》

 《CANN 为什么全面开源开放?》

点 "推荐 ",变好看哦。

评论
大家都在看