原生多模态生图模型混元图像3.0发布：我们用它画了各种企鹅

文｜晓静

编辑｜可君

该图片可能由 AI 生成

9 月 28 日，腾讯混元发布并开源原生多模态生图模型 " 混元图像 3.0（HunyuanImage 3.0）"，参数规模 80B，模型定位工业级场景，是目前参数量最大的开源生图模型之一，效果可以对标头部闭源产品。

原生多模态是指，在技术架构上，通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出，而非通过多个模型的组合实现图文理解、图片生成等任务。

这意味着，混元图像 3.0 不仅拥有生图模型的画画能力，还具备语言模型的思考能力和常识。它就像一个自带 " 大脑 " 的画家，可以利用智能去思考图像的布局、构图、笔触，利用世界知识去推理常识性的画面。

我们用它绘制了各种场景的企鹅，有些还带有中文，经过深度测试，有以下几个方面的能力非常突出：

1）图文混排能力很强，尤其是中文文字方面。以文字为主的海报输出效果稳定；

2）图片的 3D 效果表现出色；

3）语义理解准确度高，可以在生成的图片中高度还原提示词中的细节；

4）具备常识且能够利用知识进行推理，简单的 prompt 也能生成细节丰富的图片。

但是，也有一些小遗憾，比如，它还不能根据已经生成的图片进行二次修改，如果需要修改图片，还需要重新生成。

腾讯混元团队透露，混元图像 3.0 目前的版本仅开放了文生图能力，图生图、图像编辑、多轮交互等版本将于后续发布。

接下来，我们就通过各种以 " 企鹅 " 为主角的场景，直观地了解 " 混元图像 3.0（HunyuanImage 3.0）" 的效果，以下图片均为一次生成的实际效果。

该图片可能由 AI 生成

一、图文混排能力

1、少量文字的图文混排，即使没有在提示词中描述布局规律，也能和谐自然呈现

提示词：一条鱼新鲜饱满、质感诱人，具备高品质拍摄质感，同时海报中顶部、底部、点缀等各处的文字都能顺利呈现，画面层次清晰，整体配色与布局和谐，兼具美观与实用价值。主角是一只企鹅，用期待的眼神看着这条鱼。

该图片可能由 AI 生成

提示词：生成一张给鹅厂月饼做的宣传海报：1、体现星球的造型 2、体现企鹅 3、海报文案：中秋快乐

该图片可能由 AI 生成

2、包含大量中文的海报

图文混排从来都是图片生成模型最难完成的任务，因为现在的大多数生图模型本质上是在 " 画像素 "，擅长把颜色、光影和纹理变得漂亮，但对 " 标题放哪、信息分几层、边距留多少、元素怎样对齐 " 这类规则没有清晰的理解，所以容易出现主视觉很炫、信息却拥挤或乱放的位置问题。

中文笔画多、结构复杂，哪怕一条笔画的断裂或字距的细微偏差，人眼都能立刻看出来。扩散模型在还原这种高频、锐利的边缘时容易糊、变形或写错字，放大后更明显，因此 " 看起来像字 " 但 " 读不清楚 " 的情况很常见。

下面这张图包含大量文字，排版和谐，仅有少量字体出现错误或边缘模糊的溶解感，比如购票的 " 票 "。

提示词：

一张充满活力的中文音乐节海报，图文混排设计。背景为夜晚的舞台灯光，绚丽的霓虹光效与流动的音浪线条交织，天空中点缀星光与激光束。画面中央预留文字区域，字体粗犷现代、带有手绘感，中文文字清晰醒目。画面氛围热烈、年轻、自由，用企鹅体现，整体色彩也和企鹅主体配色和谐，有 3D 质感。9:16 竖版海报，高清。整体配色布局和谐。海报文案（中文，居中排版）： —————————————— 夏日狂欢 · 音乐不眠夜时间：2025 年 9 月 28 日周日 18:00 地点：北京 · 朝阳公园草坪演出阵容： · 摇滚燃力乐队 · 电音新势力 DJ · 独立民谣歌手 · 神秘嘉宾惊喜登场 ️ 立即购票 | 让音乐点燃今夜！

该图片可能由 AI 生成

二、 3D 质感方面

这张企鹅图在夕阳逆光下的体积光与边缘高光把主体立体感拉满，冰面细碎的纹理与镜面反射也增强了空间层次，冷暖对比自然舒服。

企鹅的体块比例准确、胸腹羽毛颗粒清晰，但黑色羽区稍有 " 塑料感 "，脚趾质感与贴地的接触阴影还可以更实一些。整体观感干净、通透、情绪到位，已经达到高质量的 3D 写实水准。

提示词：企鹅站在半透明冰面上，低机位仰拍，夕阳逆光＋金色 Rim Light，冰面清晰镜面反射与微粗糙度，24mm 广角，体积光与薄雾，细节锐利。

该图片可能由 AI 生成

再来一张 " 手办自由 " 的设计图。

提示词：设计四个 3D 质感的企鹅盲盒手办形象

该图片可能由 AI 生成

三、语义理解能力，可还原提示词中的细节

可以看到下面这张图，红围巾的帝企鹅、左侧橙色帐篷、右侧蓝旗（白色五角星居中）、左缘低位太阳与从左后方来的逆光、影子指向右前方、天空绿极光、冰面上 "X" 形两道裂纹这些关键要素都还原到位，且光影、材质与尺度关系自然；未出现多余动物或文字。

主要偏差是 " 数字 8 形状的小冰面 " 未被还原（当前更像不规则矩形 / 圆角块），另外冰块边缘处还有零散裂痕，略超出 " 仅两条裂纹 " 的约束。

提示词：一只帝企鹅系红围巾，独立站在 " 数字 8" 形状的小冰面上；左侧 3 米处有一顶橙色小帐篷，右侧插一面蓝旗（白色五角星居中）；太阳贴近画面左缘、光从左后方来，企鹅的影子清晰指向右前方；天空有一条绿色极光弧；冰面仅有两条裂纹交叉成 X；禁止出现第二只动物与任何文字 / 水印 /Logo

该图片可能由 AI 生成

另外一个例子是下面这张图，除了企鹅穿的靴子是按照它的 " 蹼 " 设计的，也许藏起了一个趾尖，其它基本还原完美。

提示词：给企鹅模特设计一个穿搭： 1. 画面左侧是企鹅模特的 OOTD 全身图；2. 右侧是衣服的展示，分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格：实物摄影，要求真实，有氛围感，秋季美拉德色系穿搭 "。

该图片可能由 AI 生成

四、具备常识，且能够利用知识进行推理，简单的 prompt 也能生成细节丰富的图片。

提示词：3D 效果的四格漫画，主角是企鹅，体现春夏秋冬四季变幻

该图片可能由 AI 生成

提示词：手绘风格的四格漫画，科普企鹅如何出生长大

该图片可能由 AI 生成

以上这些图片，都没有经过抽卡，而是一次性完成，指令遵循、稳定性和生成的速度都体验不错，这就意味着，插画师、设计师等可以用这个模型大幅提升工作效率，只要脑中有很好的创意。

目前，混元图像 3.0 已经上线，可以通过访问电脑端腾讯混元官网（https://hunyuan.tencent.com/image）体验，模型也将逐步上线元宝；同时模型权重和加速版本已在 Github、Hugging Face 等开源社区发布，企业和个人开发者可直接下载并免费使用。

在文生图领域，当前学术界和业界正在从传统 DiT 转向原生多模态模型架构。当前业界已经有一些开源的模型，但都是小模型，偏向于学术研究和实验阶段，生图效果也离工业界最优效果有较大差距。

作为原生多模态开源模型，混元图像 3.0 需要对模型整体架构进行重构，以支持多任务的训练，并实现多任务效果之间的相互促进。混元图像 3.0 以 Hunyuan-A13B 为基础，基于 50 亿量级的图文对，视频帧，图文交织数据和 6T 的语料数据进行了多模态生成、理解和 LLM 的混合训练，使得模型能够充分融合多任务效果；实现超强的语义理解能力，能够响应复杂的长文本，生成长文本文字，同时具有 LLM 的世界知识，能够利用世界知识进行推理。

宙世代

一起剪

相关标签