国产Nano Banana开源！用华为AI芯片训练，1张图只要1毛钱

智东西

作者 | 李水青

编辑 | 心缘

智东西 1 月 14 日报道，今天，首个在国产芯片上完成全程训练的 SOTA（最佳水平）多模态模型开源。

这是智谱联合华为开源的图像生成模型 GLM-Image。从数据到训练的全流程，该模型完全基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成构建。

截至今日午间休市，智谱股价上涨 16.83%。

在聚焦文字渲染的 CVTG-2K、LongText-Bench 榜单上，GLM-Image 的得分超越了以谷歌Nano Banana Pro为代表的认知型生成模型。

GLM-Image 在文字渲染的 CVTG-2K、LongText-Bench 榜单中达到开源 SOTA 水平

GLM-Image 实现了图像生成与语言模型的联合，核心亮点如下：

1、架构革新，面向「认知型生成」的技术探索：采用创新的「自回归 + 扩散编码器」混合架构，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题。

2、首个在国产芯片完成全程训练的 SOTA 模型：模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架，验证了在国产全栈算力底座上训练前沿模型的可行性。

3、文字渲染开源 SOTA：在 CVTG-2K（复杂视觉文本生成）和 LongText-Bench（长文本渲染）榜单获得开源第一，尤其擅长汉字生成任务。

4、高性价比与速度优化：API 调用模式下，生成一张图片仅需 0.1 元，速度优化版本即将更新。

智东西第一时间对 GLM-Image 进行了体验，发现模型在汉字生成上准确度很高，优于谷歌 Nano Banana Pro 以及多款头部国内模型；能够较准确理解深层语义和知识概念，并将其转化为正确的视觉元素；能够在保证全局构图的同时较精准刻画局部细节。

同时，GLM-Image 也存在字体风格呈现不准、生成需要等待时间、一些科学概念理解不足等问题；且相比于一些免费选择，其仍需要收取少量费用。

体验地址：

https://bigmodel.cn/trialcenter/modeltrial/image

GitHub 地址：

https://github.com/zai-org/GLM-Image

技术报告地址：

https://z.ai/blog/glm-image

GLM-Image 体验界面

一、从数据到训练，首个国产芯片训练出的 SOTA 模型

GLM-Image 自回归结构基座从早期的数据预处理，到最终的大规模预训练，全流程均在昇腾 Atlas 800T A2 设备上完成。

依托昇腾 NPU 和昇思 MindSpore AI 框架，使用动态图多级流水下发、高性能融合算子、多流并行等特性，智谱自研了模型训练套件，全面优化数据预处理、预训练、SFT 和 RL 的端到端流程。

具体来说，通过动态图的多级流水优化机制，团队将 Host 侧算子下发的关键阶段流水化并高度重叠，消除下发瓶颈；通过多流并行策略，通信和计算互掩，团队打破文本梯度同步、图像特征广播等操作的通信墙，极致优化性能；使用 AdamW EMA、COC、RMS Norm 等昇腾亲和的高性能融合算子，团队同步提升训练的稳定性和性能。

作为首个在国产芯片上完成全流程训练的 SOTA 多模态模型，GLM-Image 验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。

二、文字渲染达开源 SOTA，实测汉字生成超 Nano Banana Pro

GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。

CVTG-2K（复杂视觉文字生成）榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上，GLM-Image 凭借 0.9116 的 Word Accuracy（文字准确率）成绩，位列开源模型第一。在 NED（归一化编辑距离）指标上，GLM-Image 同样以 0.9557 领先，表明其生成的文字与目标文字高度一致，错字、漏字情况更少。

LongText-Bench（长文本渲染）榜单考察模型渲染长文本、多行文字的准确性，覆盖招牌、海报、PPT、对话框等 8 种文字密集场景，并分设中英双语测试，GLM-Image 以英文 0.952、中文 0.979 的成绩位列开源模型第一。

智东西对 GLM-Image 的实测体验侧重文字渲染能力，对比谷歌 Nano Banana Pro、豆包、阿里通义万相 2.6 几款常见同类模型，GLM-Image 在文字渲染准确度和细节刻画上表现较好，但也存在字体风格不准确、科学概念理解不足等问题，不过后面这几个问题 Nano Banana Pro 也难幸免。

提示词 1：

设计一个 " 新中式奶茶店 " 的商标（Logo）和店铺外观概念图。

Logo 部分：需要包含 " 茶悦 " 二字，设计要融合传统书法韵味和现代简约风格。

店铺外观：是一个现代玻璃橱窗小店，但门头、招牌或装饰中要巧妙运用竹元素或山水纹样。

整体感觉：干净、雅致、有文化气息，同时吸引年轻人。

生成建议：" 茶悦 " 二字可以尝试用细笔触的行书，搭配一个抽象的茶杯或茶叶形状。店铺外观可以是浅木色和留白为主，用竹格栅做装饰，玻璃上若有若无地映出山水画痕迹。

如下图所示，GLM-Image 在汉字生成上比较准确，但未采用 " 行书 "；对文字描述的设计细节呈现准确，抽象的茶杯设计较传神；对中国文化元素（书法、竹、山水）的理解和现代转译能力较强；室内陈设格局清晰，符合商业设计场景要求。

GLM-Image 生成的图片

谷歌 Nano Banana Pro 没有能够准确生成汉字，但对于画面的呈现也比较准确，室内的陈设清晰且细节丰富，实拍感较强。

Nano Banana Pro 生成的图片

豆包没有准确生成 " 茶悦 " 二字，没有按要求生成 " 一个抽象的茶杯或茶叶形状 "，但在门头、招牌或装饰中要巧妙运用了竹元素或山水纹样，设计比较独特。

豆包生成的图片

阿里通义万相 2.6 准确生成了 " 茶悦 " 二字，也按要求生成了一个抽象的茶杯或茶叶形状，但字体同样没有采用 " 行书 "，店面的内部构造生成细节相对不多。

阿里通义万相 2.6 生成的图片

提示词 2：

画一张给小学生看的 " 光合作用示意图 "。图中需要包含一棵有笑脸的植物、一个大太阳、代表二氧化碳（CO ₂）的箭头从空气指向叶子、代表氧气（O ₂）的箭头从叶子中冒出。在图片下方，用清晰易懂的字体标注解释：" 植物利用阳光、水和二氧化碳，制造出氧气和养分 "。整体风格需生动可爱，兼具科学性和趣味性。

如下图所示，GLM-Image 保证了全局构图风格可爱、场景完整，对 " 光合作用 " 这一科学概念有一定的理解能力，但氧气的箭头打反了，释放氧气应该是箭头向外。

GLM-Image 生成的图片

不过，Nano Banana Pro 也没有做对这道题，氧气的箭头也画反了，且汉字生成上一塌糊涂，全都乱码了。

Nano Banana Pro 生成的图片

豆包在这道题上完成度较高，不仅准确生成了汉字，还理解了光合作用概念，将抽象概念转却转化为了具象的视觉符号。

豆包生成的图片

阿里通义万相 2.6 也能够准确生成文字，并且用视觉符号呈现了 " 光合作用 " 吸收二氧化碳、释放氧气的过程，但仍有一个二氧化碳的箭头向外打，可能将 " 呼吸作用 " 也考虑进来了；比其他模型多表现了根系吸收水分这一部分原理。

阿里通义万相 2.6 生成的图片

三、自回归 + 扩散编码器架构创新：读懂指令，写对文字

当下，以 Nano Banana Pro 为代表的闭源图像生成模型，正在推动图像生成与大语言模型的深度融合。模型在海报、PPT、科普图等知识密集型场景及高保真细节上的表现，展现了认知型生成模型的技术优势。

GLM-Image 是首个开源的工业表现级离散自回归图像生成模型，是智谱面向认知型生成技术范式的一次重要探索。

创新架构，让模型能够读懂写对。面对传统模型在 " 理解复杂指令 " 与 " 精准绘制文字 " 上难以兼顾的问题，GLM-Image 引入了「自回归 + 扩散解码器」混合架构，创新地融合了 9B 大小的自回归模型与 7B 大小的 DiT 扩散解码器。

前者利用其语言模型的底座优势，专注于提升对指令的语义理解和画面的全局构图；后者配合 Glyph Encoder 的文本编码器，专注于还原图像的高频细节和文字笔画，以此改善模型 " 提笔忘字 " 的现象。

GLM-Image 还具备多分辨率自适应能力。通过改进 Tokenizer 策略，GLM-Image 能够自适应处理多种分辨率，原生支持从 1024×1024 到 2048×2048 尺寸的任意比例图像的生成任务，无需重新训练。

通用 pipeline

解码器结构示意图

结语：纯血国产大模型进击，从 " 可用 " 到 " 好用 "

GLM-Image 的诞生，标志着国产大模型探索进入了从 " 可用 " 到 " 好用 " 的关键阶段。它以 " 自回归 + 扩散 " 的混合架构破解了 " 图文协同 " 的生成难题，同时凭借在国产昇腾算力上完成全流程训练的实践，证明了自主技术栈支撑前沿 AI 创新的可行性。

作为一款在文字渲染任务上达到开源 SOTA 的模型，它为海报设计、知识科普等需要精准图文融合的场景提供了高性价比的新选择，同时有望为整个 AI 产业生态的自主化与多元化打基础。

宙世代

一起剪

相关标签