文|晓静
编辑|可君
该图片可能由 AI 生成
9 月 28 日,腾讯混元发布并开源原生多模态生图模型 " 混元图像 3.0(HunyuanImage 3.0)",参数规模 80B,模型定位工业级场景,是目前参数量最大的开源生图模型之一,效果可以对标头部闭源产品。
原生多模态是指,在技术架构上,通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图片生成等任务。
这意味着,混元图像 3.0 不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带 " 大脑 " 的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
我们用它绘制了各种场景的企鹅,有些还带有中文,经过深度测试,有以下几个方面的能力非常突出:
1)图文混排能力很强,尤其是中文文字方面。以文字为主的海报输出效果稳定;
2)图片的 3D 效果表现出色;
3)语义理解准确度高,可以在生成的图片中高度还原提示词中的细节;
4)具备常识且能够利用知识进行推理,简单的 prompt 也能生成细节丰富的图片。
但是,也有一些小遗憾,比如,它还不能根据已经生成的图片进行二次修改,如果需要修改图片,还需要重新生成。
腾讯混元团队透露,混元图像 3.0 目前的版本仅开放了文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布。
接下来,我们就通过各种以 " 企鹅 " 为主角的场景,直观地了解 " 混元图像 3.0(HunyuanImage 3.0)" 的效果,以下图片均为一次生成的实际效果。
该图片可能由 AI 生成
一、图文混排能力
1、少量文字的图文混排,即使没有在提示词中描述布局规律,也能和谐自然呈现
提示词:一条鱼新鲜饱满、质感诱人,具备高品质拍摄质感,同时海报中顶部、底部、点缀等各处的文字都能顺利呈现,画面层次清晰,整体配色与布局和谐,兼具美观与实用价值。主角是一只企鹅,用期待的眼神看着这条鱼。
该图片可能由 AI 生成
提示词:生成一张给鹅厂月饼做的宣传海报:1、体现星球的造型 2、体现企鹅 3、海报文案:中秋快乐
该图片可能由 AI 生成
2、包含大量中文的海报
图文混排从来都是图片生成模型最难完成的任务,因为现在的大多数生图模型本质上是在 " 画像素 ",擅长把颜色、光影和纹理变得漂亮,但对 " 标题放哪、信息分几层、边距留多少、元素怎样对齐 " 这类规则没有清晰的理解,所以容易出现主视觉很炫、信息却拥挤或乱放的位置问题。
中文笔画多、结构复杂,哪怕一条笔画的断裂或字距的细微偏差,人眼都能立刻看出来。扩散模型在还原这种高频、锐利的边缘时容易糊、变形或写错字,放大后更明显,因此 " 看起来像字 " 但 " 读不清楚 " 的情况很常见。
下面这张图包含大量文字,排版和谐,仅有少量字体出现错误或边缘模糊的溶解感,比如购票的 " 票 "。
提示词:
一张充满活力的中文音乐节海报,图文混排设计。背景为夜晚的舞台灯光,绚丽的霓虹光效与流动的音浪线条交织,天空中点缀星光与激光束。画面中央预留文字区域,字体粗犷现代、带有手绘感,中文文字清晰醒目。画面氛围热烈、年轻、自由,用企鹅体现,整体色彩也和企鹅主体配色和谐,有 3D 质感。9:16 竖版海报,高清。 整体配色布局和谐。 海报文案(中文,居中排版): —————————————— 夏日狂欢 · 音乐不眠夜 时间:2025 年 9 月 28 日 周日 18:00 地点:北京 · 朝阳公园草坪 演出阵容: · 摇滚燃力乐队 · 电音新势力 DJ · 独立民谣歌手 · 神秘嘉宾惊喜登场 ️ 立即购票 | 让音乐点燃今夜!
该图片可能由 AI 生成
二、 3D 质感方面
这张企鹅图在夕阳逆光下的体积光与边缘高光把主体立体感拉满,冰面细碎的纹理与镜面反射也增强了空间层次,冷暖对比自然舒服。
企鹅的体块比例准确、胸腹羽毛颗粒清晰,但黑色羽区稍有 " 塑料感 ",脚趾质感与贴地的接触阴影还可以更实一些。整体观感干净、通透、情绪到位,已经达到高质量的 3D 写实水准。
提示词:企鹅站在半透明冰面上,低机位仰拍,夕阳逆光+金色 Rim Light,冰面清晰镜面反射与微粗糙度,24mm 广角,体积光与薄雾,细节锐利。
该图片可能由 AI 生成
再来一张 " 手办自由 " 的设计图。
提示词:设计四个 3D 质感的企鹅盲盒手办形象
该图片可能由 AI 生成
三、语义理解能力,可还原提示词中的细节
可以看到下面这张图,红围巾的帝企鹅、左侧橙色帐篷、右侧蓝旗(白色五角星居中)、左缘低位太阳与从左后方来的逆光、影子指向右前方、天空绿极光、冰面上 "X" 形两道裂纹这些关键要素都还原到位,且光影、材质与尺度关系自然;未出现多余动物或文字。
主要偏差是 " 数字 8 形状的小冰面 " 未被还原(当前更像不规则矩形 / 圆角块),另外冰块边缘处还有零散裂痕,略超出 " 仅两条裂纹 " 的约束。
提示词:一只帝企鹅系红围巾,独立站在 " 数字 8" 形状的小冰面上;左侧 3 米处有一顶橙色小帐篷,右侧插一面蓝旗(白色五角星居中);太阳贴近画面左缘、光从左后方来,企鹅的影子清晰指向右前方;天空有一条绿色极光弧;冰面仅有两条裂纹交叉成 X;禁止出现第二只动物与任何文字 / 水印 /Logo
该图片可能由 AI 生成
另外一个例子是下面这张图,除了企鹅穿的靴子是按照它的 " 蹼 " 设计的,也许藏起了一个趾尖,其它基本还原完美。
提示词:给企鹅模特设计一个穿搭: 1. 画面左侧是企鹅模特的 OOTD 全身图;2. 右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭 "。
该图片可能由 AI 生成
四、具备常识,且能够利用知识进行推理,简单的 prompt 也能生成细节丰富的图片。
提示词:3D 效果的四格漫画,主角是企鹅,体现春夏秋冬四季变幻
该图片可能由 AI 生成
提示词:手绘风格的四格漫画,科普企鹅如何出生长大
该图片可能由 AI 生成
以上这些图片,都没有经过抽卡,而是一次性完成,指令遵循、稳定性和生成的速度都体验不错,这就意味着,插画师、设计师等可以用这个模型大幅提升工作效率,只要脑中有很好的创意。
目前,混元图像 3.0 已经上线,可以通过访问电脑端腾讯混元官网(https://hunyuan.tencent.com/image)体验,模型也将逐步上线元宝;同时模型权重和加速版本已在 Github、Hugging Face 等开源社区发布,企业和个人开发者可直接下载并免费使用。
在文生图领域,当前学术界和业界正在从传统 DiT 转向原生多模态模型架构。当前业界已经有一些开源的模型,但都是小模型,偏向于学术研究和实验阶段,生图效果也离工业界最优效果有较大差距。
作为原生多模态开源模型,混元图像 3.0 需要对模型整体架构进行重构,以支持多任务的训练,并实现多任务效果之间的相互促进。混元图像 3.0 以 Hunyuan-A13B 为基础,基于 50 亿量级的图文对,视频帧,图文交织数据和 6T 的语料数据进行了多模态生成、理解和 LLM 的混合训练,使得模型能够充分融合多任务效果;实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有 LLM 的世界知识,能够利用世界知识进行推理。
登录后才可以发布评论哦
打开小程序可以发布评论哦