文 | 硅基星芒
AI 的渗透正无远弗届。正如很多插画网站,添加 "AI 生成 " 标签已是标配。
从艺术角度看,AI 生成的图片,似乎争议依然巨大。但不得不承认的是,在工作和学习中,AI 图片生成却是一个提高效率的好办法。
目前,多模态大模型领域中,支持文生图的模型数量正在指数级增长。
为了解决大家的 " 选择困难症 ",这次我们选择了 6 个模型进行测评。
参赛选手如下:
腾讯混元、智谱 CogView-4、通义千问、即梦、可灵和 Gemini 2.5 Flash Image。
其中,前段时间在 LMarena 上爆火的模型 nano-Banana,据说吊打一切文生图模型。
现在也已经 " 验明正身 ",正是 8 月 27 日 Google 发布的 Gemini 2.5 Flash Image。
在测评前,先叠个甲:
对美术方面,实在是一窍不通。
因此,我们不谈复杂的理论,也不聊晦涩的美术史。
只是以一个普通人的视角,借助 AI 给出的评分标准,来评价一下到底 " 好不好看 "。一家之言,仅供参考。
01 第一维度:基础美学与真实感
考验目标:AI 的基本画功,好不好看、真不真实。
题目:傍晚阳光下的少女
Prompt: 超写实照片,一个有雀斑的年轻女子,面带微笑,在黄金时刻坐在窗边,温暖的阳光穿过她的头发,电影感光线,8K,高细节。
评分标准:
测评结果:
腾讯:人物的皮肤质感过于光滑,仅有微小瑕疵。
智谱:皮肤过于光滑,雀斑形状和分布过于均匀和刻意,属于明显瑕疵。
千问:双手比例和形态非常不自然,完全没有写实感," 一眼 AI",属于明显瑕疵。
即梦和可灵:非常出色,接近完美,不愧是 " 专业画手 "。
Gemini:皮肤质感过于光滑细腻,写实感还是差了一些。
总体来说,对于人物的塑造,各个 AI 还是比较拿手的。
虽然有些模型生成的图片略有瑕疵,但整体观感不错。
02 第二维度:想象力与创意
考验目标:AI 的脑洞有多大,对于现实中不存在的事物的创造能力。
题目:星云构成的雄狮
Prompt: 一头雄伟的狮子,由旋转的星系和星云雕刻而成,宇宙尘埃构成了它的鬃毛,眼睛是闪烁的恒星,背景是深邃的宇宙。
这一轮的题目看来对 AI 难度有点高了。
腾讯:第一眼看上去很华丽,很有气势,但似乎理解出现了一些偏差。这并非一个由星云构成的生命体,而是一尊宇宙材质的宏伟雕像。
智谱:生成了一个宇宙背景下的实体狮子,完全彻底的概念性跑偏。
千问:" 半神半兽 " 的感觉,实体狮子与星云的混合,离要求还是有一定差距。
即梦:科幻感十足,但狮子身体仍然是实体而不是星云构成的,观感有一定新意。
可灵:本轮的最佳选手,视觉效果很好,实现了与星云的融合。
Gemini:狮子的实体也是不透明的,不过神韵、气质和细节都还不错。
看来,对于现实中不存在的事物,AI 出现概念理解错误的几率会大大增加,而想象能力也是目前模型有所欠缺的地方。
可能的原因也比较多,例如训练数据存在一定的局限性、对物理世界存在路径依赖或是概念融合能力的欠缺。
03 第三维度:指令理解与执行力
考研目标:AI 听不听话,能不能正确遵从指令。
题目:水果篮里的数学题
Prompt: 一个木碗里装着三个红苹果和两个黄香蕉,放在一张白色的桌子上。
这肯定是人类眼中最简单的一道题,但对 AI 来说难度可不低。
六个模型中,只有智谱、千问和 Gemini 正确完成了如此 " 简单 " 的指令。
即梦和可灵都搞错了苹果的数量,而混元更是漏洞百出。
根据这一轮的结果,我们也可以得到一个推断:
AI 生图模型并非按照我们的数学概念和美术流程来工作。
或者说,它并不是按照我们最直接的思路,画一个苹果,再画一个香蕉,直到数目符合要求。
指令中的 3 这个数字,对 AI 来说,并不代表一个精确的数量,而是一个需要渲染的 " 构图特征 "。
而在向量空间中," 三个苹果 " 和 " 四个苹果 " 可能是非常接近的。
同时,我们也无法得知提供给上述 AI 的训练集到底是什么样的。
但是,标签肯定是做不到完全精准的,AI 只能长时间在海量但又不完全精确的数据中学习。
AI 的最终目标,是让生成的图片最接近于它见过的 " 三个苹果 ",而不是 " 让生成的苹果数量等于 3"。
04 第四维度:风格模仿与驾驭力
考验目标:AI 模仿特定的艺术家或艺术流派的能力。
题目:水墨风的机甲
Prompt:一个巨大的中国古代机甲战士,站立在云雾缭绕的山谷中,中国传统水墨山水画风格。
又是一道有点抽象的题目。
表现最好的是 Gemini,实打实绘制出了山水画风格,大体符合要求。
千问生成的机甲看起来确实气势磅礴,细节处理也很到位,但很明显,这是素描而不是水墨风格,只能说是 " 有形无神 "。
即梦生成的图片也并非水墨画,而是带有写实感的数字绘画,更像是个游戏的概念设计图。
可灵则发挥了优秀的拼接能力,在水墨风格的背景中插入了日式机甲,风格完全割裂。
混元和智谱生成的图片则有些奇怪,水墨画风格没实现的同时,也没理解 " 机甲战士 " 这个主体,画中人更像是个古代武士,完全偏离了题目要求。
如此看来,AI 尚且不具备完全模仿某个艺术家或艺术流派的能力,能够做到 " 形似神不似 " 就实属不易。
05 第五维度:文化理解与概念表达
考验目标:AI 能否理解特定的文化以及是否能够表达抽象的概念。
题目:中秋佳节的汉服少女
Prompt:一位美丽的年轻女孩,身穿中国传统汉服,庆祝中秋节,她手持一个精致的兔子灯笼,身后是明亮的满月。
Gemini 和可灵都拿下了相当高的分数,展现出了较高的文化素养。
对于汉服的概念理解比较深刻,而月亮、灯笼、园林等文化元素也都齐全。
推测其训练数据中,中国传统文化的相关素材标注是比较准确的。
两家模型的算法能够把 " 汉服 " 等关键词正确关联到视觉特征上。
即梦和千问在美观度和氛围塑造上也很成功,不过汉服的结构有些模糊。
尽管这种古风画作可能意味着 AI 对于服饰历史知识的了解程度不够深刻,但满足 " 好看 " 这一要求仍然不在话下。
智谱生成的则是唯一采用了动漫风格的图片,对历史文化的复现程度显然是太浅了。
混元生图看似美观,但在服饰结构上有比较明显的错误,即一定程度上的文化混淆。
因此,AI 在文化表现上也是存在 " 双刃剑 " 效应的。
顶级 AI 具备相当可观的文化知识,对于传播、创作优秀传统文化会有很大的帮助。
而部分 AI 还存在 " 刻板印象 ",受到低质量数据的影响,反而会加剧大众的文化误解。
06 总评
本次测评的总分如下:
Gemini:44 分
可灵:40 分
即梦:39 分
千问:38.5 分
智谱:33.5 分
腾讯:28.5 分
从效果上来看,千问、即梦、可灵和 Gemini 的文生图效果都是很不错的。
尤其是前身为 nano-Banana 的 Gemini 2.5 Flash Image,拿到了最高的分数,证明了它并非浪得虚名。
不过,我们的核心目标还是要透过现象看本质。
人们总是惊叹于 AI 的 " 创造力 ",它足够以假乱真,绘画水平也超越了大部分人。
但事实上,AI 输出的图片,并非源于类似人类的灵感或意图。
AI 作画,并非像一个画手一样,从一张白纸开始一笔一笔画出事物。
而是从一张充满随机噪声点的 " 混沌画布 " 开始,根据提示词进行降噪。
也就是说,AI 作图并非基于逻辑推理,而是基于概率。
对于苹果生成数量的错误,可能就是因为 " 构成一幅和谐的水果静物图 " 这个在训练数据中频繁出现的指令,其概率权重超过了 "3" 这个脆弱的数字符号。
对于星云和狮子之间的挣扎,与 " 狮子 " 相关的像素模式可能是 " 实体 " 和 " 毛发 ",而与 " 星云 " 相关的则是 " 气体 " 和 " 半透明 "。AI 无法同时满足两个相互矛盾的概率分布,因此降噪过程就无法成功。
对于水墨风的机甲,则可能是 AI 背后的数据库在发挥作用。如果数据库中有大量 " 水墨 "、" 机甲 " 等高质量的标签,降噪过程也会被顺利引导至一个高质量的概率空间。
简单的来说,AI 不是在根据指令绘画,而是根据知识储备,试图通过降噪给出最可能符合指令的图像。
至于错误,文生图是一个很复杂的过程,很遗憾,我们无法确切得知问题出在哪一环节。
也因此,至少目前为止,我们并不是 " 创作者 ",而是 " 概率的引导者 "。