大数据在线 01-20
全栈突围:智谱GLM-Image × 昇腾·昇思携手走出“无人区”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

技术只有变得足够 " 便宜 ",才能实现真正 " 普及 ",从而深度融入到工作与生活的方方面面。

所以,当 GLM-Image 在 API 调用模式下生成一张图片只需 0.1 元时,价格仅为海外同类产品的 1/10 至 1/3,全球 AI 市场都为之震撼。

GLM-Image 是智谱联合华为开源新一代图像生成模型,也是首个在国产芯片上完成全程训练的 SOTA 多模态模型,其基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成了从数据到训练的全流程。

GLM-Image 模型强大的性能表现,及背后的全栈国产化训练历程,给出了一个极具参考价值的答案 :在 AI 高端领域,中国公司已走出无人区,实现全栈技术突围,对于后续整个 AI 产业具有里程碑的意义。

GLM-Image,新架构带来变革

在 AI 生图领域,主要存在扩散模型(Diffusion)和自回归模型(Autoregressive,AR)两种模型,两者各有优势却也存在短板。扩散模型难以理解复杂指令,在海报、PPT、科普插图等知识密集型场景中,往往会 " 语义脱节 " 的短板,会出现物理逻辑错误等问题;自回归模型则在生成图像质量难以令人满意。

为此,智谱 GLM-Image 创新性采用了自回归 + 扩散编码器混合架构。自回归模型犹如 " 大脑 ",擅长处理序列逻辑和宏观语义,负责逻辑推理与框架构建;扩散解码器则专注于图像的高频细节还原,确保最终生成的图像在视觉上达到工业级的美学标准。GLM-Image 的混合架构恰似 " 理解 " 意图之后再进行生图创作,这是向探索以 Nano Banana Pro 为代表的新一代 " 知识 + 推理 " 的认知型生成模型迈出重要一步。

混合架构的优势,使得智谱 GLM-Image 尤其擅长文字渲染,在海报、插画等场景展现出强大的能力。来看看智谱 GLM-Image 的真实效果:

据悉,GLM-Image 在 CVTG-2K(复杂视觉文本生成)和 LongText-Bench(长文本渲染)榜单获得开源第一。

此外,GLM-Image 在开源不到 24 小时就登顶全球知名 AI 开源社区 Hugging Face Trending 榜第一。Hugging Face 是全球知名的开源 AI 模型与工具生态平台,堪称全球 AI 界的顶流。GLM-Image 此次登顶,其模型 SOTA 性能、混合架构创新和训练过程引发了全球 AI 圈的广泛热议。

昇腾 · 昇思助力全栈突围

再好的架构与算法,如果没有强大算力底座的支撑,也无法训练出强大的模型。

众所周知,像 SOTA 模型这种级别的前沿模型,对于 AI 算力集群的性能、稳定性与通信带宽有着极高要求,并且普遍需要国外 AI 芯片支撑此类训练任务。不过,智谱 GLM-Image 模型进行了开创性尝试,从海量数据预处理到大规模预训练,再到最后微调全流程使用国产算力,使得其成为首个基于自主创新算力底座全程训练的 SOTA 模型,也实现国产模型 + 国产算力 + 国产 AI 框架的全栈突围。

具体来看,GLM-Image 属于多模态模型,需要处理大量文字和图片数据,在模型训练阶段的内存开销和性能要求极高。为此,昇腾 · 昇思引入动态图多级流水下发、多流并行执行、高性能融合算子等特性,全面提升从数据处理、预训练、SFT 到 RL 的端到端性能。

例如,动态图多级流水下发,彻底解决了 Host 侧算子下发瓶颈问题。在 NPU+CPU 的集群中,大规模多核 CPU 会涉及到单线程算子下发跟不上 NPU 计算速度,导致设备侧空转与整体资源利用率偏低。依托昇腾 + 昇思 MindSpore 的软硬件协同,通过动态图多级流水下发,将 Python 执行、算子 shape 推导与算子下发等关键阶段进行流水化并高度重叠,有效提升 Host 侧算子下效率。

又如,GLM-Image 的多模态训练场景中,文本梯度同步、图像特征广播、混合并行等操作都有复杂的通信需求。单流串行执行时,计算和通信两类操作互相等待,整体资源利用率低。为此,通过多流并行执行机制,让计算与通信两类操作同时并行,打破通信墙和大幅提升资源利用率,整体提升训练性能 10%。

再如,昇腾 CANN 高性能算子库提供包括 AdamW EMA 融合算子、COC 通算融合算子等,针对性解决训练后期 loss 震荡、通信开销大等问题,为 GLM-Image 模型的训练带来高性能和稳定性。

无疑,基于昇腾 · 昇思构建的国产算力底座在此次 GLM-Image 模型训练中经受住充分考验,充分证明了从国产芯片、AI 框架到多模态模型的全栈突围并非遥不可及。

走出 " 无人区 " 具有里程碑意义

智谱与华为的此次深度合作,其意义远超一个模型的简单发布。

长期以来,中国 AI 开发者高度依赖国外 AI 硬件、AI 框架等。事实证明,这种方式受制于人且充满高度不确定性,严重束缚中国 AI 的创新与发展。而智谱 GLM-Image 模型的问世,验证了在国产全栈算力底座上训练高性能复杂多模态模型的可行性,这标志着国产 AI 正式走出 " 无人区 "、实现全栈突围,对于未来市场有着不可低估的影响:

其一、打破依赖惯性,给予国内 AI 开发者们重要信心。智谱 GLM-Image 模型的出色表现具有里程碑的意义,证明国产大模型 + 国产 AI 芯片 + 国产 AI 框架的组合 SOTA 级模型领域同样能打,后续其示范价值有望在 AI 开发者中得到持续影响。

其二、智谱 GLM-Image 模型开源,有望进一步激发 AI 生图领域的创新。众所周知,开源模式是降低创新门槛的和激发技术创新活力最为有效方式,而智谱 GLM-Image 开源,已经受到 Hugging Face 等知名平台的密切关注,未来有望吸纳更多开发者了解和加入到智谱 GLM-Image 项目之中,从而激发 AI 生图领域的迭代与创新。

其三、加速商业化落地和 AI 新生态形成。近年来,海外频繁传出中国大模型获得全球用户青睐的消息,根本原因在于中国大模型产品技术具备相当竞争力的同时,带来极具性价比的使用体验。像智谱 GLM-Image 在 API 调用模式将生成一张图片做到只需 0.1 元,这无疑对整个 AI 生图市场带来巨大冲击力,有望进一步推动 AI 生图相关技术与产品的普惠和 AI 生态的形成。

综合观察

勇气是不确定性时代唯一的通行证。

当市场充满不确定性时,在人工智能的 " 无人区 " 里,本就没有现成的路。智谱与华为的紧密合作,无疑走出一条独立、安全且具有国际竞争力之路,不仅诞生出 GLM-Image 这样出身的 SOTA 模型,更证明了国产 AI 全栈突围并非遥不可及。

展望未来,随着智谱在人工智能智能领域的持续探索,以及昇腾、昇思产品竞争力稳步提升,国产 AI 穿越 " 无人区 " 之后,迎接他们的将是 AGI 的星辰大海。   

END

文章精选

#

释放数据潜能,华为云携手贵阳顺 " 数 " 而为

#

全球能耗 Top50 数据中心有哪些

#

深耕三大赛道," 伙伴 + 华为 " 为广东注入新动力

#

能源数字化,未来四十年看什么?

#

潮起之江:算力赋能开启 AI 产业新征程

#

高效释放价值,华为云数智融合有门道

#

冷思考:数据中台的迷失与前行!

#

开放表格:大数据已死,亦将永存

#

生产力范式变革,华为云推动 AI 产业化

#

光子技术:制霸数据中心未来网络?

大数据在线是聚焦人工智能、大数据、云计算等前沿科技领域深度观察的深度媒体。目前,大数据在线在微信公众号、今日头条号、新浪财经、36 氪、雪球号、观察号等主流自媒体平台均有入驻,积累粉丝超过 20W;并荣获今日头条十大科技新锐媒体、商业新知十大人工智能媒体等多项殊荣。商务联系请添加微信:Owen_Inter,添加请备注具体信息。

>>>

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai ar 物理 华为 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论