国产芯片训练的多模态SOTA模型开源，昇腾+昇思做对了什么？

过去一年，当业界还在为扩散模型与自回归路径的优劣争论不休时，一批以知识密集型生成为核心优势的闭源模型，早已悄然锚定 " 认知型生成 " 这一技术航向。像海报设计、PPT 制作、学术论文配图这类场景，既要求模型精准理解复杂指令，又需要高效完成版面编排与高质量文字渲染，传统模型无法兼顾效果与效率。更棘手的是，支撑这类技术探索的算力底座长期被海外生态垄断，国内 AI 开发者在攻坚算法创新的同时，还要在异构环境中被迫妥协。

这一局面，被一次极具突破性的开源行动打破。1 月 14 日智谱 GLM-Image 模型发布，并于 1 月 15 日，登顶全球知名 AI 开源社区 Hugging Face Trending 榜第一。在笔者看来，其亮眼之处，不仅是智谱面向认知型生成技术范式的重要探索、首个具备工业级表现的开源离散自回归图像生成模型，更在于其是中国首次实现基于国产芯片的前沿多模态模型全流程训练与全球开源开源榜首突破，具有里程碑意义：

在模型训练方面，从数据清洗到强化学习，模型全流程训练均基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架完成，既验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性；作为全球知名的开源 AI 模型与工具生态平台，Hugging Face 汇聚海量开源预训练大模型、数据集和开发工具，此次 GLM-Image 登顶 Hugging Face Trending 榜第一，也印证了该模型在全球范围内的技术竞争力与认可度。

当训练全流程 " 跑 " 在国产算力上

此前业界谈及国产算力适配，大多停留在将成熟模型迁移部署，或仅在训练环节做局部组件替代的层面。而 GLM-Image 则截然不同，其自回归结构的模型基座，从项目规划之初就深度扎根昇腾生态：从数据预处理、大规模预训练，到 SFT 微调、RL 强化学习，全流程代码均基于昇腾 NPU 原生执行，而非后期适配。做出这一选择，源于团队对混合架构训练复杂度的深刻认知：

事实上，9B 参数的自回归模型与 7B 参数的 DiT 扩散解码器协同训练，涉及海量图文数据、跨模态梯度同步、多分辨率动态调度，对主机 - 设备协同、内存复用、通信效率提出了极高的要求。而昇思 MindSpore 并非简单的接口适配，而是真正理解昇腾硬件特性的 " 翻译层 "。这一特性，让开发者在模型设计阶段能充分考量底层算力特征，而非在训练或部署阶段再做补救。" 项目早期规划就要在昇腾生态上完成训练与推理的完整适配。" 智谱技术团队表示。

而 " 全流程 " 的关键意义，在于提供原生适配的可能性，将昇腾的内存架构、通信特性、算子优势深度融入模型设计逻辑。唯有当训练框架、硬件特性、算法结构三者深度协同、同频共振，才能真正释放出国产算力的性能潜力。

20%、10%、15%：性能提升背后的技术含量

性能提升的数字只是结果，真正决定技术含金量的，是这些数字背后解决的核心痛点。

20% 的训练性能提升，来自动态图多级流水下发的技术突破。NPU+CPU 服务器常配备大规模多核 CPU 资源，单线程的算子下发往往跟不上 NPU 的计算，Host 侧算力难以充分发挥，导致 Device 侧空转与整体资源利用率偏低。因此，使用了多级流水优化机制，依托昇腾 + 昇思 MindSpore 的软硬件协同，将 Python 执行、算子 shape 推导与算子下发等关键阶段进行流水化并高度重叠，有效提升 Host 侧并行度与下发效率，提升训练性能 20%。

而 10% 的训练性能提升，源于对多流并行执行机制的深度应用。在多模态训练场景中，文本梯度同步、图像特征广播、混合并行等核心操作，都伴随着极高的通信复杂度。采用传统单流串行执行模式时，计算与通信两类操作 " 互相等待 "，使整体资源利用率降低。而多流并行执行机制为通信和计算分别配置独立的通信流与计算流，同时依托共享内存池实现内存资源的高效复用，让两类操作得以并行推进、同步运转。不同通信域还能单独申请和分配通信流，充分利用网络带宽消除通信串扰，整体提升训练性能 10%。

15% 的训练性能提升，则归功于昇腾 CANN 高性能融合算子赋能。扩散模型训练后期，损失值震荡是长期困扰开发者的技术顽疾。昇腾 CANN 算子库中的 EMA 融合版 AdamW 优化器，创新性地将参数状态更新与指数移动平均操作合二为一，精准稳住了模型的收敛曲线。另一大核心利器是 COC 通算融合算子，其通过 " 计算任务掩盖通信开销 " 的巧妙设计，消解了多机多卡张量并行中的集合通信延迟，仅此一项就实现了通信效率 15% 的提升。值得强调的是，这些算子均是昇腾团队针对大模型训练的实际痛点量身打造的专属工具。

在千卡集群的实际训练场景中，这三组数据的价值更为直观：20% 的主机端效率提升每天可节省可观训练时间；10% 的通信优化让模型横向扩展时性能衰减更平缓；15% 的通信效率改善降低了多机同步等待成本。这种 " 组合拳 " 式的优化策略，诠释了全栈协同的精髓。当硬件的特性被框架充分理解，当框架的需求被算子精准满足，优化的边际效益才能呈指数级释放。

强化学习训练用昇腾生态啃下硬骨头

如果说预训练是标准化流程，强化学习阶段则充满挑战，尤其是当强化学习（RL）与混合架构模型结合时，难度会显著提升。

GLM-Image 的强化学习训练，需要同时调度自回归模型与扩散解码器两大核心模块，而后者在策略推演过程中产生的巨大推理开销，成为了制约训练效率的最大瓶颈。智谱自研的强化学习框架，此前在通用 GPU 平台上就面临着显著的性能短板，而昇腾生态的高度灵活性，为突破提供了可能。团队通过精准的性能分析，定位到算子与通信开销掩盖不足的核心问题，随后重新调整并平衡系统资源配比，最终让强化学习训练效率达到了商用落地的门槛。

其中一个关键设计，是 " 解耦奖励机制 "。自回归模块生成图像低频布局信息，扩散解码器则补充高频细节。两者可分别接收针对性反馈信号。自回归部分侧重一致性引导与美学质量，用 HPS 和 OCR 模型强化文字准确性；解码器则聚焦信息保真度。这种解耦让奖励计算更高效，昇腾的内存池与多流机制恰好提供底层支撑。

强化学习训练是检验算力底座成熟度的试金石。相比预训练的规则性计算，强化学习训练的策略执行阶段充满动态性和不确定性，对算力灵活调度能力要求极高。昇腾能啃下这块硬骨头，关键在于工具链的完善：性能剖析工具让瓶颈可见，内存池让资源复用高效，多流机制让动态调度可行。这已经超越了单纯的算力堆砌，体现了 " 可调试、可优化、可掌控 " 的工程成熟度。达到文字渲染开源 SOTA 水平，优化效果的最佳证明

GLM-Image 在 CVTG-2K 复杂视觉文本生成榜单中，以 0.9116 的文字准确率拿下开源第一，NED 指标 0.9557 领先；在 LongText-Bench 长文本渲染评测中，英文得分 0.952、中文得分 0.979，同样位列榜首。可以说，GLM-Image 模型基于创新的混合架构，实现了在文字渲染的权威榜单中达到开源 SOTA 水平。不仅如此，中关村在线获悉，GLM-Image 还登顶全球知名 AI 开源社区 Hugging Face Trending 榜第一。

取得这一成绩的背后，不仅是模型对汉字结构、多行排版、复杂背景的精准驾驭，更是底层技术全栈优化的成果。昇腾的精度稳定性、算子融合带来的收敛改善、通信优化减少的梯度抖动，这些改进最终都转化为文字生成准确率的提升。智谱选择开源代码而非仅开放 API，正是因为所有优化都建立在昇思框架的规范接口和昇腾的开放能力之上，这样的开源模式具有显著的示范效应。

目前，智谱团队已开放 GLM-Image 的在线试用，开发者可直接体验从 1024×1024 到 2048×2048 的任意分辨率生成而技术报告与开源代码也已同步放出，可以让昇腾 + 昇思的优化实践可被社区复用与验证。

国产全栈，从可用到好用的关键一跃

笔者认为，GLM-Image 首次证明了，依托昇腾 Atlas 硬件、昇思 MindSpore 框架，再到 CANN 算子库、通信优化技术，国产全栈算力底座完全能够支撑当前最前沿的 " 认知型生成 " 模型训练。这项验证历经数月迭代打磨，攻克了无数细碎难题，最终达到了工业级落地水准。对于开发者而言，这意味着选择昇腾，就等于拥有了一个经过深度优化的技术伙伴。动态图流水、多流并行、融合算子等核心特性，已在 GLM-Image 的训练实践中，分别实现了 20%、10%、15% 的性能提升。

从 " 可用 " 到 " 好用 "，国产算力底座差的正是一个 " 正向循环 "。过去国产算力的发展困境十分突出：没人用就无从优化，不好用就更没人愿意尝试。而 GLM-Image 的突破，恰恰打破了这个死循环，智谱率先投入资源开展深度适配，跑通了全流程并验证了其性能潜力；这一成果将吸引更多团队基于昇腾开展原生开发，进一步暴露并挖掘优化空间。当 " 投入－优化－效果 " 的飞轮转动起来，国产算力生态的自我强化之路，便已正式开启。

写在最后

GLM-Image 的开源，是带着算力底座的 " 有根开源 "。该模型将根扎在昇腾的 AI 算力土壤里，每一个优化策略都对应着训练中的真实瓶颈，每一项性能提升都经得起复现检验。当行业还在争论开源模型如何追赶闭源性能时，GLM-Image 提供了另一条思路，用全栈深度优化释放效率红利，用原生支持降低迁移成本，用真实场景锤炼技术细节。

昇腾与昇思的组合，正在证明国产 AI 基础设施不仅能用，更能在关键创新节点上成为首选。这或许才是 GLM-Image 给开源社区最珍贵的礼物，一次完整、可复现、高性能的国产算力训练实践。而这，也为下一代认知型生成模型的探索，铺就了一条更可靠的国产算力路径。

宙世代

一起剪

相关标签