智东西 6小时前
阿里最强“PS模型”开源!一手体验,0元P出氛围感合影
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者|江宇

编辑|漠影

智东西 12 月 24 日报道,今日,阿里 Qwen 团队正式开源图像编辑模型 Qwen-Image-Edit-2511,这是继 9 月 23 日发布 Qwen-Image-Edit-2509 后的最新增强版本。

在此前的多个公开基准测试中,Qwen-Image 系列已展现出较强的图像编辑性能,共获得 12 项 SOTA(最佳表现)。在中文文字生成评测 ChineseWord 与 LongText-Bench 中分别领先 GPT Image 1、Seedream 3.0等主流模型。

新版本则聚焦图像生成过程中的人物一致性问题,在单人连拍、多人物融合等任务中显著提升面部特征与风格的稳定性,同时集成了多个 LoRA 子模型,增强了图像编辑中的几何构造、光照控制、材质替换等能力。

智东西也在第一时间进行了实测。整体来看,Qwen-Image-Edit-2511 在人像融合、LoRA 光照控制、风格一致性方面表现出色,生成结果自然。但在镜头旋转、空间构图与几何推理类操作上仍存在明显误差。

Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511

魔搭社区:

https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511

技术报告:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

一、新版本聚焦人物一致性与风格迁移,拓展多场景图像编辑能力

在此前版本的 Qwen-Image 中,Qwen 团队首次构建了完整的图像生成与编辑框架,通过 Qwen2.5-VL+VAE 双编码机制配合 MMDiT 扩散架构,其中 "MM" 代表的是模型生成图像、文本等多模态内容的能力,"DiT" 则代表了这是一个扩散 Transformer。

Qwen 团队在多个公开基准上对 Qwen-Image 进行了评估,比较对象为全球头部的开源、闭源图像生成模型。在通用图像生成测试 GenEval、DPG 和 OneIG-Bench,以及图像编辑测试 GEdit、ImgEdit 和 GSO 上,Qwen-lmage 超过了 Flux.1、BAGEL 等开源模型、字节跳动的 SeedDream 3.0 和 OpenAI 的 GPT Image 1(High)

在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 基准测试上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型,包括 SeedDream 3.0 和 GPT Image 1(High)。

此次发布的 Qwen-Image-Edit-2511 版本,则在图像编辑阶段进一步增强了人物一致性表达能力,并引入 LoRA 模块提升光照、材质与视角控制表现。

Qwen-Image-Edit-2511 在保持人物一致性方面做出了重点升级。针对输入人像生成的多张变体图像,模型在眼神、发型、配饰等细节上的保留更加稳定,适用于多表情、多姿态、多风格等需要角色连贯输出的场景。

除了单人任务,Qwen-Image-Edit-2511 还显著优化了多人图像融合表现。相比此前版本,它可以更自然地将两张不同人像合成为同一张合影图像,保留人物原貌的同时,自动调整姿态与构图,生成结果在整体风格与角色协调性上更为连贯。这为 AI 情侣照、群像图等应用提供了更高质量的基础。

Qwen 官方案例

同时,Qwen-Image-Edit-2511 首次在基础模型中内置了部分高频使用的 LoRA 子模型。用户无需加载外部权重,即可直接启用如光照增强、新视角生成、材质替换等功能。

例如,用户可通过 LoRA 控制自然光线方向变化,重现柔光照明效果,也可以在工业设计场景中完成木材纹理或布料风格的替换操作。

在结构理解方面,该版本还加入了几何构造辅助能力,支持在输入图像的基础上添加辅助线、延长线等几何元素,适用于教学、工程图生成或图像标注任务。

二、实测:人物融合稳定、风格控制可用,但精细控制仍有边界

在实际体验中,我们围绕人物一致性、LoRA 光照、材质替换、文字渲染以及几何推理等能力,对 Qwen-Image-Edit-2511 进行了多组测试。

整体来看,模型在人物类合成与风格表达方面表现稳定,输出结果具备较高可用性,但在镜头级控制与几何逻辑执行上仍存在一定局限。

案例 1:情侣写真合影(人物一致性与互动姿态测试)

4:3,韩系情侣写真风格,背景为纯色暖调低饱和暗绿色磨砂质感墙面,正面柔光打光,人物面部形成柔和阴影过渡。一对年轻东亚情侣,女性人脸参考第一张图,长头发妆容精致带项链耳环,米白色露肩上衣;男性人脸参考第二张图,发型不变,黑色短袖。人物姿态互动感强(脸贴脸),表情灵动俏皮微笑,男生搞怪委屈,女生搞怪可爱笑眯眯,整体甜酷亲昵,胶片风格带颗粒感柔光暖调,注重互动细节与服饰质感。原比例。

参考图

生成结果中,两位人物的面部特征与细节保持良好一致性,互动姿态自然,光影符合写真风格,整体效果稳定且可用。

Qwen-Image-Edit-2511 生成效果图

案例 2:双人俯拍自拍(高角度合成与人物一致性测试)

请将图 1 和图 2 融合成一张双人俯拍自拍照,画面构图紧凑,两位主体靠得很近,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧人物站得略靠前,参考我图 1 的主体形象特征造型保持不变,需要保持人脸相似度;右侧人物参考图 2 的主体形象特征保持造型不变,需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,符合典型的日韩视觉自拍风格。背景为纯白色,简洁干净,进一步凸显人物主体。画面风格偏向日系视觉系,整体画面清晰度高,用 iphone 前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀。

合成结果中,两位人物在高角度俯拍构图下保持了较高的人脸相似度,自拍风格成立,背景干净,整体效果表现良好。

Qwen-Image-Edit-2511 生成效果图

案例 3:软光 LoRA 与镜头控制(光照重构与视角操作测试)

对上传的室内家居图进行重新打光,加入柔和光线、侧面光照效果,突出空间质感,整体光线要自然不过曝。

参考图

在该任务中,该模型成功完成柔光重新照明,侧光层次自然,整体光线控制稳定。

Qwen-Image-Edit-2511 生成效果图

将镜头移至桌面特写

生成结果中,镜头确实发生变化,但桌面毛笔数量与书本打开状态与原图存在偏差,结构并不够严格。

Qwen-Image-Edit-2511 生成效果图

将镜头向左旋转 60 度

该指令未能被有效执行,画面视角未出现明显旋转变化,该模型在精确镜头控制方面仍有限制。

Qwen-Image-Edit-2511 生成效果图

案例 4:材质替换(工业设计场景测试)

将家具图片中桌面与椅子的木质纹理替换为另一张图中的浅色松木材质,保持结构不变,仅替换材质贴图。

参考图

生成结果中,桌椅整体结构保持稳定,木质纹理替换自然贴合,观感统一。

Qwen-Image-Edit-2511 生成效果图

案例 5:文字渲染与风格融合(中英文文字测试)

生成竖版 3:4 画面比例的 " 真人与其对应卡通壁画合影 " 场景图像 : 将上传的真实人物照片以原样保留服装、发型、妆容置于画面左侧 / 前方,调整人物的动作和拍摄视角,以确保画面和谐。在真人背后墙面绘制 1:1 对应卡通壁画,厚涂质感且采用动漫风格大眼、柔和轮廓五官,完整复刻发型、服装及配饰细节如耳环、项链等,色彩饱和度高并带有涂鸦式笔触效果。墙面添加彩色涂鸦爱心、笑脸图案元素,地面点缀飞溅颜料装饰细节,壁画区域融入如 "2026 新年快乐 " 的中文字元素,字体风格契合涂鸦美学。确保真人与壁画比例、角度自然衔接,光照方向统一符合场景逻辑,保持整体色彩风格一致呈现生动、连贯且视觉和谐效果。

参考图

生成结果中,真人与卡通壁画在风格和镜头方向上衔接自然,中文文字 "2026 新年快乐 " 渲染清晰。

Qwen-Image-Edit-2511 生成效果图

然后,把文字部分换成如 "Merry Christmas" 的英文元素和 " 圣诞快乐 " 的中文字元素中英文混合的文字。

在中英文混排场景下,模型依然能够正确生成文字内容,风格与画面保持一致,文字渲染稳定,未出现明显错字。

Qwen-Image-Edit-2511 生成效果图

案例 6:几何推理(辅助构造能力测试)

过 A 作 $DE$ 的垂线,延长 $ED$ 交于 G。

参考图(左)与 Qwen-Image-Edit-2511 生成效果图(右)

该任务中模型生成的几何关系存在明显错误,垂线与交点位置不符合要求,其几何推理能力尚不足以支撑严谨的数学或工程制图任务。

三、内置 LoRA 模型增强实用性,覆盖光照、视角与工业材质替换

在 Qwen-Image-Edit-2511 中,官方首次将部分社区高频使用的 LoRA 子模型直接内置于基础模型中,用户无需加载额外权重即可调用对应能力。这一机制显著降低了 LoRA 功能的使用门槛,也提升了模型在专业应用场景下的实用性。

例如,在图像风格调控任务中,用户可通过光照增强 LoRA 控制自然光线的角度、强度与方向,生成具有真实光影层次的画面效果。当前版本已可实现 " 柔光—侧光 " 等典型照明风格的生成。

视角调控方面,用户还可调用新视角 LoRA,直接以同一主体为基准生成不同拍摄角度下的图像,可减少重复拍摄与人工调整角度所需成本。

此外,在工业设计任务中,LoRA 机制也可被用于批量图像生成、元素删改与材质替换流程中。这类能力已初步具备在产品草图阶段进行测试的潜力。

综合来看,内置 LoRA 的集成设计提升了 Qwen-Image-Edit-2511 在具体任务中的可用性,尤其在光照控制、材质替换、多视角生成等高频需求中展现出更高的商用适配性,为设计、营销、内容生成等场景提供了更低成本的图像处理方案。

结语:国产开源模型朝商用化迈进了一步

综合来看,Qwen-Image-Edit-2511 在人物一致性、多人物合成与 LoRA 风格控制方面展现出稳定表现,实用性比前一版本有明显进步。对于需要连贯角色形象输出、控制局部风格迁移、进行材质替换等图像生成任务的用户来说,它已经具备一定的落地能力。

不过,在镜头变换、构图调整、几何推理等涉及空间理解与强逻辑执行的任务中,模型仍存在稳定性与精度上的短板,与当前顶尖的多模态生成模型相比,仍有一定差距。

作为一款面向开源社区的图像编辑模型,Qwen-Image-Edit-2511 正将模型能力朝向可控性与商用型场景聚焦,这也为国内开源路线提供了一个新的样本。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 阿里 字节跳动
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论