原本,小雷以为今年下半年 AI 圈子的热闹,也就是那样了。
闭源这边,由 Gemini 3 Pro 驱动的 Nano-Banana Pro,几乎改变了大家对于平面设计的认知;开源这边,Flux 2.0 的突然开源,也让普通人能够自行部署的图像生成效果大大提升,只要优化做得好,人人都能跑出像模像样的图。
那时候同事还跟我打赌,说这两款大模型的风潮,最起码能领跑个半年。
结果没想到,打脸来得这么快。
就在这两天,阿里的通义千问团队突然甩出了一张王炸—— Z-image,上线即登顶开源社区热门榜第一位。

(图源:Hugging Face)
这名字听着挺硬核,但真正吓人的是它的定位:一款 60 亿参数(6B)的开源图像生成模型。
这消息一出来,我和同事都在群里炸锅了。要知道,在现在的生图领域,6B 这个参数量,基本就是个弟弟。隔壁那些动不动几十 B 甚至上百 B 的大模型,光是权重文件下载下来都能把硬盘塞满。
阿里这是要干嘛?拿个 " 弟弟 " 来跟一群肌肉猛男打擂台?
带着这种好奇,小雷第一时间去把 Z-image 给拖了下来,还特意找来了两个当红炸子鸡——字节的豆包和最近红得发紫的 Nano-Banana Pro,看看这仨的差距到底在哪?
先别急着看图,咱们得先聊聊这个 Z-image 到底是个什么来头,以及如果你想玩,得准备点啥。
按照官方介绍,Z-Image(中文名 " 造相 ")是阿里巴巴通义实验室研发并开源的高效图像生成基础模型,定位为 " 轻量且高性能 " 的 AI 图像解决方案,对标参数量 20B 以上的闭源旗舰模型。
而这款产品本身,参数量只有 6B。
在 AI 界,参数量大概可以理解为模型的 " 脑容量 "。一般来说,脑容量越大,懂的知识越多,画出来的细节越丰富,而 Nano-Banana Pro 之所以文生图的效果极为出色,很大一部分原因就在于谷歌训练出来的极高参数量。
但代价就是,你得有个好显卡伺候着。
以最近开源的Flux 2为例,32B 的参数量,你不掏个 24GB 显存的 3090/4090,基本连启动这一关都过不去。

(图源:Flux 2)
但 Z-image 这个 6B 就很灵性了。
小雷看了一下官方文档,它的硬件门槛简直低得让人感动。哪怕你是好几年前的 RTX 3060,或者是随便整一张显存 6GB 的消费级主流显卡,配合上现在成熟的量化技术,也能跑得飞起。
这就意味着,你不用为了玩个 AI 画图,还得专门去配台主机。你手边那台用来打 LOL 的游戏本,甚至是一些高性能的轻薄本,都能变成你的创意工坊。
要把这个东西跑起来,其实很简单。
讲究一点的,你可以去 Hugging Face 下载模型,搭配上 tonyhub 这类简洁前端和一条工具流就能用。
不太讲究的,只要下载 ComfyUI 最新版,或者是升级一下本地版,就直接可以使用了,都不需要安装第三方节点。工作流已经内置了,只需要打开模板,点击 Z-image-Turbo 即可,接下来按照官方提示下载、放置模型就 OK 了。

(图源:ComfyUI)
当然,如果你说小雷我连显卡都没有,是核显用户怎么办?
也没事,现在像这种开源模型,Hugging Face 和阿里的魔搭社区(ModelScope)上通常都有现成的在线 Demo。虽然排队可能要等一会儿,但胜在白嫖,不用白不用嘛。
不过,光说不练假把式。参数小了,效果是不是也跟着缩水了?
为了验证这点,我也做了一些测试,用相同的 Prompt,看看它和目前国内外常用的两家图片生成大模型的对比。
先看几个纯粹的生图效果。
Prompt:人类考古学家在金字塔挖掘现场发现一个旋转金属球的真实手持拍摄,手持纪录片现实主义,真实手持风格。



(自上而下为,Z-image/ 豆包 /Nano-Banana Pro)
在这组图片中,只有 Nano-Banana Pro 能够还原出纪录片拍摄的界面和质感。
至于 Z-image 和豆包,他俩在这张图片上的表现其实相差无几,但是豆包多次生成能够得到不同效果的图片,而 Z-image 图片的一致性则明显有点偏高,可能是内置参数带来的影响。

(图源:豆包)
再来一张人像,试试三家的成色。
Prompt:一张平平无奇的 iPhone 照片,无精心构图和打光,日常快拍,松弛氛围感亚洲美女,穿着宽松厚毛衣与牛仔阔腿裤,舒适随性。她随意站在街头或咖啡馆门口,肩上自然背着一只单肩包,款式简洁低调,增添生活气息。



(图源顺序:如上所述)
在这组图片中,三张图片都没有什么问题,都可以做到真实感强,光影自然,画面里头也不存在明显的呲漏。
要真说有啥不同,明显 Z-image 和豆包更符合国人审美,而 Nano-Banana Pro 生成的华人有明显的 ABC 特征。
接下来,我们试一下简单的海报设计,Prompt 太长就不在这里列举了:



这组图很有意思,可以看出,在更新迭代后,Nano-Banana Pro 应对一般的中文嵌入已经没啥问题了。
论细节和光影的话,这我觉得大家都在伯仲之间。
值得一提的是,豆包图片生成的不稳定性确实很高,多次生成甚至会出现多瓣或是整朵花苞,然而我在 Prompt 里明确表述了 " 主要拍摄对象是一片纤薄、有脉络的花瓣 ",很有意思。

既然单格图片问题不大,那么多格图片教程又如何呢?
Prompt:手账风格,出一个番茄炒蛋的制作步骤教程图,步骤说明要中文,落款是 ##。



这组图差距就很明显了,我们不难看出,只有 Nano-Banana Pro 能够掌握多格图片的生成和数字顺序的含义,基本上一次出图。
Z-image 这边,粗看是有那么点意思,但是数字标注完全是错的。
豆包就很有意思了,它生成了 10 张单格的图片教程,但却无法在图片内实现分割以生成多格画面。

最后,让我们看看二次元 / 漫画图片的生成。
Prompt:日本漫画风格,初音未来和洛天依撕开一张海报并穿越到现实中,酷炫的彩铅作画,动态多彩的画面。



这一对比,差距马上就出来了,只有 Nano-Banana Pro 知道两位角色,构图也很有意思,豆包虽然没有洛天依的概念,但是起码还有个构图的优势,Z-Image 就是根本不知道在干些什么了。
只能说,在知识量这块,Z-Image 确实还是比不上闭源模型。
至于图生图,或者图片编辑之类的能力,目前开源的 Z-Image-Turbo 是没有的,咱们还是等等 Z-Image-Edit 吧。
测完这几轮,小雷心里的评价大概有了谱。
Z-image 强吗?强。
在中文语境的理解、在单张图片的审美、以及最重要的——在硬件资源的利用率上,它简直是当下开源界的 T0 级别。
虽然在复杂推理和精准编辑上,它还打不过 Nano-Banana Pro 这样的闭源大佬,目前也缺失了图片编辑相关的能力,但在 90% 的日常使用场景里,它已经能做到 " 够用 " 甚至 " 好用 "。
这对于那些想尝试 AIGC 的中小企业,或者是像我们这种想在本地搞搞创作的个人用户来说,意义太大了。
而且别忘了,它是开源的。
这意味着什么?意味着明天可能就会有大神在它的基础上,训练出专门画二次元的、专门画建筑设计的、专门做电商海报的各种微调模型。

(图源:Reddit)
就像当年的安卓手机一样,一开始可能不如苹果流畅,但架不住玩的人多、改的人多,生态一旦起来了,那爆发力是惊人的。
所以,如果你问小雷:Z-image 值得折腾吗?
我的回答是:只要你有张显卡,哪怕是入门级的,都值得下下来玩玩。
毕竟,不用花钱,不用买昂贵的算力,就能在自己硬盘里养一个随叫随到的画手,这种把技术握在自己手里的感觉,可是那些在线生成平台给不了的。
而且按照阿里这个 " 卷 " 法,我有预感,明年这个时候,我们可能就能在手机上跑这种级别的模型了。
到时候,人人都是神笔马良的时代,可能真的就不远了。


登录后才可以发布评论哦
打开小程序可以发布评论哦