历史一刻！华为：SOTA多模态模型首次在国产芯片上完成全程训练实测效果惊艳

快科技 1 月 14 日消息，今日，华为、智谱宣布，双方联合开源新一代图像生成模型 GLM-Image，模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的 SOTA 多模态模型。

SOTA 是英文 "State-of-the-Art" 的缩写，直译是 " 艺术的巅峰 "，中文意思是 " 最先进的、目前最高水平的 " 模型，是科技、工程、学术研究等领域广泛使用的术语，核心指在特定任务、场景或评价标准下，当前公开可验证的最优技术、方法、模型或产品。

据介绍，GLM-Image 采用自主创新的 " 自回归 + 扩散解码器 " 混合架构，实现了图像生成与语言模型的联合，是面向以 Nano Banana Pro 为代表的新一代 " 认知型生成 " 技术范式的一次重要探索。

核心亮点如下：

架构革新，面向 " 认知型生成 " 的技术探索：采用创新的 " 自回归 + 扩散编码器 " 混合架构，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题，向探索以 Nano Banana Pro 为代表的新一代 " 知识 + 推理 " 的认知型生成模型迈出了重要一步。

首个在国产芯片完成全程训练的 SOTA 模型：模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架，完成了从数据预处理到大规模训练的全流程构建，验证了在国产全栈算力底座上训练前沿模型的可行性。

文字渲染开源 SOTA：在 CVTG-2K（复杂视觉文本生成）和 LongText-Bench（长文本渲染）榜单获得开源第一，尤其擅长汉字生成任务。

高性价比与速度优化：API 调用模式下，生成一张图片仅需 0.1 元，速度优化版本即将更新。

那这件事到底有何意义呢？简单说，这是中国 AI 领域的一次全栈自主可控里程碑，智谱联合华为，基于昇腾 Atlas 800T A2 芯片 + 昇思 MindSpore 框架，训练出首个国产全栈算力底座支撑的多模态开源 SOTA 模型 GLM-Image。

它不仅打破了高端 AI 训练对国外芯片的依赖，还把这项国际顶尖水平的技术免费开放给所有人，让国产 AI 生态迈出了关键一步。

此前训练顶尖多模态模型，大多依赖国外高端芯片。现在智谱和华为用实打实的成果证明，国产算力底座完全能扛住几十亿参数大模型的训练任务，而且性能达到国际开源模型的顶尖水平。这意味着中国 AI 产业的核心环节不再受制于人，产业安全有了更坚实的保障。

过去，训练一个顶尖多模态模型需要上亿的算力投入，只有谷歌、微软等科技巨头玩得起。现在 GLM-Image 开源后，创业者、中小企业甚至个人开发者都能零成本用上，可以直接用来做电商海报设计、科普插画生成、教育课件制作等，大大降低了 AI 创新的门槛。

基于国产算力训练和部署的 GLM-Image，生成一张高清图片的成本低至 0.1 元，远低于不少商业 AI 服务；同时支持从手机小图到海报大图的多种分辨率，能直接适配各类商业和民生场景，真正做到拿来就能用。

这件事的核心价值，不只是练出了一个顶尖的多模态模型，更在于证明了中国 AI 能实现芯片 - 框架 - 算法的全栈自主可控。

它既打破了国外技术的垄断，又通过开源让技术惠及更多人，标志着中国 AI 从跟跑向并跑甚至部分领跑的转变。

让我们来看看 GLM-Image 在实际的复杂图文等任务中的表现。

场景一：科普插画

GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。

场景二：多格图画

在生成电商图、漫画等多格图画时，GLM-Image 能够保持风格和主体的一致性，并保障多处文字生成的准确率。

场景三：社交媒体图文

GLM-Image 适用于制作社交媒体封面及内容等排版复杂的图片，让您的创作更自由丰富。

场景四：商业海报

GLM-Image 能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。

场景五：写实摄影

在文字渲染以外，GLM-Image 也同样擅长生成各种景别和尺寸的人像、宠物、风景、静物。

宙世代

一起剪

相关标签