Qwen开源版Banana来了！原生支持ControlNet_ZAKER新闻

量子位前天

Qwen开源版Banana来了！原生支持ControlNet

Qwen 版 Banana 来了！

刚刚，Qwen 推出了新图像编辑模型—— Qwen-Image-Edit-2509。

不仅支持多图融合，提供 " 人物 + 人物 "，" 人物 + 商品 "，" 人物 + 场景 " 等多种玩法，还增强了人物、商品、文字等单图一致性。

除此之外，它还原生支持 ControlNet，可通过关键点图改变人物姿势，还可轻松实现换装需求。

图像编辑之余，Qwen 还开源了端到端全模态模型Qwen3-omni，表现也可圈可点。既可当语音翻译助手，还能立不同的人设，甚至支持方言输出。

下面具体来看。

支持多图输入

新图像编辑的首要更新就是支持了多图输入。

先看一个 " 人物 + 人物 " 生成结婚照的例子。

输入两张图片：

然后，输入以下提示词：

结果闪亮登场：

不喜欢中式婚礼的也没事，我们还可以生成西式的，主打一个用户就是上帝。

再看 " 人物 + 场景 " 的应用，感觉可轻轻松松实现环球旅行。

令我比较惊讶的是，这还真不是简单的图像拼接，它甚至贴合场景改变了主角的神态，闭眼享受阳光的动作、躺椅上的影子，说实话，p 图我都 p 不出来这么细。

下面轮到 " 人物 + 物体 " 了，我把它称为最快拥有奢侈品包包和豪车的方式。

此外，多图输入也支持 ControlNet 常用的关键点图，比如改变人物姿势。

还能在改变关键点的同时，进行换装。

除此之外，普通证件照、形象照、生活照也是 so easy。

想要 Banana 大火的美式精英风？无论是半身还是全身照，你想要的 Qwen 都有。

还能进行不同的姿势编辑，俏皮、比心、举黑板都是不在话下。

基于新模型上述图像编辑能力，再加上其本身特色的文字生成能力，团队发现它还很擅长制作表情包。

当然，对于更长的文字，新模型也依然可以在保持人物一致性的前提下进行渲染。

更有意思的是，它还可以给老照片进行修复，比如给照片上色。

还可以修复破损照片。

但是，这个美颜……

除了真实人物，生成卡通玩偶、文创也是分分钟的事啦。

咦？这左下角不就是 Nano Banana 爆火的手办吗？Qwen 新模型效果看起来也是很不错的。

1 个物品太简单了，咱们再换个有 14 只猫的图片试一下。

哇哦，猫的数量是对的，效果也是相当可以。

除了图像方面，新模型还专门增强了文字一致性，支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。

此外，它还支持定点文字编辑，细致到可将圈出来的错字进行定点修改。

效果是这样滴：

不仅如此，新模型还支持深度图控制，保持物体与场景的一致性。

哎呀，这泥泞的道路、茂盛的丛林、真实的车辙印，真的不是户外山地车的广告吗？

只有关键点也不耽误出图，无论男女、无论古代还是现代、无论什么穿着，Qwen 都能统统搞定。

最后就是根据草图来控制生图，这一老一少真给人一种时光穿梭的感觉，再配个 bgm 氛围感直接拉满。

还有端到端全模态模型

Qwen 不仅在图像编辑上表现优异，它还开源了端到端、全模态大模型Qwen3-omni，不仅能够无缝处理文本、音频、图像和视频等多种输入形式，还能边生成文字边实时合成语音。

主要特点如下所示：

跨模态的领先性能：在 36 项音频及音视频基准测试中，Qwen3-omni 斩获 32 项开源 SOTA 与 22 项总体 SOTA，超越 Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe 等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到 SOTA 水平。

多语言方面：Qwen3-omni 支持 119 种文本语言、19 种语音输入语言和 10 种语音输出语言。

效果 be like：

不仅是实时翻译助手，还能直接总结网页内容，然后用你所需要的语言输出。

更快响应：端到端音频对话延迟低至 211ms，视频对话延迟低至 507ms。

长音频：支持长达 30 分钟音频理解。

个性化：支持 system prompt 随意定制，可以修改回复风格，人设等。

比如广东幼儿园老师或是四川女汉子。

咦，那么问题来了，这些方言是否标准噻？

工具调用：支持 function call，实现与外部工具 / 服务的高效集成。

开源通用音频 Captioner：开源 Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频 caption 模型，填补开源社区空白。

不仅能分析音乐风格，还能推理数学题，甚至还能当起语音助手唤醒其他应用。

这花里胡哨的功能真是令人眼花缭乱，感兴趣的读者赶紧去试试吧。

参考链接：

[ 1 ] https://huggingface.co/Qwen/Qwen-Image-Edit-2509

[ 2 ] https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list

[ 3 ] https://github.com/QwenLM/Qwen3-Omni

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果开源 nano 文创语音翻译

相关文章

评论

没有更多评论了

12 我来说两句…

打开 ZAKER 参与讨论