智东西 前天
“鸡排哥”的走红名场面,腾讯混元图像都整明白了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 应用风向标(公众号:ZhidxcomAI)

作者|江宇

编辑|漠影

智东西 9 月 28 日报道,腾讯今日正式开源其全新一代原生多模态图像生成模型 "HunyuanImage 3.0"。

该模型参数规模达 80B,是当前业界参数最大、能力最强的开源生图模型之一,具备复杂语义理解、文字生成与世界知识推理等能力,其效果对标业界头部闭源模型。

作为首个工业级原生多模态开源模型,它能够基于长文本指令完成结构明确、语义复杂的图像生成,在构图、排版、美学风格等方面也展现出拟人化的判断力。

模型体验入口(需要通过电脑端访问):

https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

腾讯混元官网:

https://hunyuan.tencent.com/image

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-3.0

一、体验:做出 " 鸡排哥 " 的金句海报,配色神似老干妈

最近在社交平台上,来自江西景德镇的 " 鸡排哥 " 李俊永突然走红。这次智东西拿到了 HunyuanImage 3.0 模型的体验权限,试着让它完整复刻这位 " 鸡排主理人 " 的一天。

1、四点半前不要排队?告示得贴出来

李俊永有个规矩,四点半前不接散客,只卖学生。我们第一步输入指令,希望模型生成一个 " 还没正式开摊 " 的告示:

Prompt:" 需要一张贴在简陋小吃推车上的告示牌,上方有一个卡通鸡排摊主头像,黑色头发,手里拿着鸡排。牌子中间用黄色中文写着:四点半后不接散客、学生便宜 1 元、请提前打开塑料袋 "

生成效果:模型成功还原出 " 简陋小吃推车 " 的现实质感,摊位与海报的细节处理得很自然,海报的边边角角也超具真实感,关键的是海报上的中文标语清晰完整,没有出现乱码。

比起 " 能画 ",这一步主要验证它能不能把 " 世界知识 + 规定文字 " 都反映出来,这组小测试通过。

2、学生放学排长队," 袋子文学 " 上线

四点半一过,学生下课,鸡排哥正式开麦:" 请打开你的袋子,我需要的是速度。" 于是我们给模型出题,模拟高峰期摊位和金句喊麦。

Prompt:" 一个简陋小吃推车正值高峰时段,排满穿校服的学生,摊主(黑色头发、白色上衣、身型较瘦)动作麻利,一边炸鸡排喊话说‘请打开你的袋子’ "

生成效果:这一幕的还原度相当高——学生身上校服没错、摊主在操作油锅、甚至人物张嘴讲话的动态都能看出是喊话的语气,有几张图颇有 " 鸡排哥 " 的神韵。可见,该模型支持复杂语义下的场景推理。

3、鸡排海报也讲人设?来点主理人式金句

既然摊主走红的原因之一是 " 嘴上有货 ",那我们就搞一张 " 鸡排哥语录海报 "。

Prompt:" 一个竖版简陋小吃推车的海报,背景是炸鸡排特写,中央是鸡排主理人头像(黑色头发、白色上衣、身型较瘦),底部大字写着‘吃饱了还想吃?对自己好点,再好一点点’,整体风格红黄为主,像街头招贴 "

生成效果:模型的文字排版能力很惊艳,字体、布局、配色都高度贴近现实街头风,还沿用了 " 老干妈 " 的海报风格。

4、" 鸡排世家 " 营业中

现实中,鸡排摊后来成了 " 鸡排世家 ",老板本人负责主炸," 鸡排嫂 "、" 鸡排奶 "、" 鸡排舅 " 都来帮忙。我们来还原这场 " 鸡排总动员 ":

Prompt:" 一个热闹的简陋小吃推车前,四位家人正在分工合作,摊主(黑色头发、白色上衣、身型较瘦)炸鸡排,妻子协助制作鸡排,母亲负责给鸡排裹粉,小舅子腌制鸡排,有很多客人边拿着手机边等待 "

生成效果:模型准确生成了多角色主体,服装风格统一,动作自然。该模型基于语义理解进行场景还原和排布的能力,还是很在线的。

5、6 元鸡排能吃出 600 元服务?图也能整出来

鸡排哥有句名言:"6 元鸡排吃出了 60 元的情绪价值和 600 元的服务体验。" 我们就用它做最后两版 " 广告图 ",一个重情景,而另一个重产品。

Prompt 1:" 一位顾客坐在长椅上吃鸡排,表情满足,背景是夜色摊位灯光,画面中间用金色手写字写着:‘ 6 元鸡排,600 元体验’,整体氛围像品牌广告大片 "

Prompt 2:" 鸡排广告,手写广告语:‘ 6 元鸡排,600 元体验’,整体氛围像奢侈品广告大片,奢华有格调 "

生成效果:这一步体现了 HunyuanImage 3.0 的 " 构图、情绪、文字 " 三项能力:画面情绪把握得准、手写字体无乱码、整体构图自然。

6、鸡排哥的 " 梗图宇宙 ",出图啦!

在完成 " 语录海报 " 和 " 品牌广告 " 之后,我们进一步测试模型是否能搞定鸡排哥在网络上流传的梗图?

Prompt 1:创作一张职场梗图表情包,画面核心是一位忙碌的鸡排摊主(黑色头发、白色上衣、身型偏瘦,动作麻利,在小吃摊前烹饪),周围环绕着标注身份的人群:‘同事’‘客户’‘大领导’‘小领导’‘其他部门同事’,上方配黄色大字文案:‘当距离下班还有 2 小时,突然有一大堆工作找上门,而你只想准时下班’,中间标注‘我:’指向忙碌的摊主。整体风格为现实场景与文字标注结合的搞笑梗图,色彩贴近真实街景,人物动作突出忙碌感,文字排版清晰醒目,营造职场忙碌又无奈的情绪。

我们将指令稍加改动,就能让主体变成海绵宝宝,整体画风也毫无违和。

同样,鸡排哥上班的 " 炸场图 " 也能搞定。

Prompt 2:创作一张街头梗图表情包,画面核心是一位骑浅蓝色三轮电动车的摊主,头戴灰色头盔,身穿白色 T 恤,车上载着‘回头客 鸡柳鸡排’的红色招牌(带‘智造美味 成就经典’黄色标语和美食图片)。周围有举着手机拍摄的人群,背景有红色遮阳伞、写着‘衢州鸭头’的招牌和绿树。整体风格为写实街景与市井氛围结合的搞笑梗图,突出摊位的复古感和人群的围观互动感,色彩鲜艳充满烟火气,营造出网红小吃摊的热闹场景。

生成效果:在这一组体验中,模型不仅能准确生成主体文字,还能在背景和多主体场景中保持长文本渲染的完整性与一致性。

HunyuanImage 3.0 在这个 " 鸡排哥的复刻挑战 " 里,成功完成了多个维度的能力验证:

1、对现实人物设定和社会场景的知识推理力

2、对图中文字生成能力

3、对复杂语义的理解能力

4、美学控制力

下次如果鸡排主理人考虑拓展品牌,或许真可以考虑这位 "AI 美工助理 " 了。

二、不是拼凑,而是 " 一个模型 " 在理解和生成

HunyuanImage 3.0 是业内首个开源的工业级原生多模态图像模型。与传统通过 " 语言模型 + 图像模型 " 拼接实现图文理解不同,它采用统一的架构来处理文字、图像等多模态输入输出,生成过程由一个模型内部完成。

这使得模型具备了类人 " 认知式 " 图像构建能力。以 " 鸡排哥 " 体验中的例子来看,用户无需分步骤拆解每个细节,模型即可根据整段语义自动推理出 " 谁在做什么、什么时候做、要传达什么 "。比如在 " 摊主喊话学生打开袋子 " 的画面中,模型不仅还原了人物动作,还捕捉到 " 喊话 " 的嘴型与 " 高峰时段 " 的摊位人流,体现出模型在处理 " 时间、身份、行为 " 三重语义时的统一理解能力。

这背后依赖的是腾讯团队自研的 Hunyuan-A13B 基座模型,联合 50 亿图文对、视频帧、图文交织内容与 6T 语料进行混合训练,协同优化语义理解、知识调用、视觉生成等能力。

在实测中,HunyuanImage 3.0 表现出两个重要能力的结合:一是图中文字的准确生成,二是整体画面的美学质感。

针对 " 鸡排哥语录 " 与 "6 元鸡排,600 元体验 " 等视觉海报类内容,模型不仅生成了排版合理、无乱码的中文大字,文字与画面主题也能高度贴合,都呈现出一定的 " 设计意识 ",而非单纯的图文叠加。

这说明 HunyuanImage 3.0 不仅能 " 读懂 " 文字内容,还能 " 设计 " 如何呈现文字。这类图文融合能力,使其在广告、电商、宣传海报等垂类应用中具备直接可用性。

结语:AI 生图,不只是 " 能画 " 那么简单

从 " 还没开摊的鸡排车 " 到 "600 元情绪价值的广告大片 ",HunyuanImage 3.0 在一次真实的鸡排哥复刻挑战中,展现出对复杂语义、社会场景、视觉美学一定的把控力。

对于需要快速生成商业海报、场景图、情绪表达图的用户而言,HunyuanImage 3.0 可以是一个稳得住的创作助手;而对希望深度定制视觉风格的开发者来说,作为开源模型,它也具备进一步微调与衍生开发的空间。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 开源 效果 社交平台
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论