混沌大学 04-16
亲测:GPT-4o们,离成精还有多远?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

最近,GPT-4o 模型的文生图功能走红网络。混沌同学 Z 在第一时间也做了测试,并用国内的新生 AI 模型与 GPT-4o 进行了简单的对比。结合其他测试者的测试结果,同学 Z 发现:

在不同的场景下,GPT-4o 们有着相当亮眼的表现,但离 " 成精 " ……

因为只是同学单方面尝试体验,不代表各 AI 模型的真实水平,也不代表混沌立场,请同学们独立判断。

文   /   混沌同学 Z

只需上传照片到 GPT-4o,并输入 " 转换为 XX 风格的图像 ",几分钟的时间,GPT-4o 便能将日常场景瞬间转为符合用户期望的写真图像。

同时,走红的不只是 GPT-4o,从字节旗下的即梦 AI、快手旗下的可灵 AI,到上个月刚刚发布,誉为 "AI 图像生成新标杆 "的 Reve Image等等,一大批文生图大模型正雨后春笋般出现。

所以,这些工具之间有哪些功能差别?又有哪些真的可以为我所用?

结合上手的实际体验,我为大家整理了一些应用案例,通过不同模型生成结果的对比,帮助大家在不同的应用场景里,去解锁图像生成 AI 从入门到进阶的 N 种新姿势。

由于这次我尝试的模型功能相对比较简单,后期大家还想看哪些 AI 模型功能的效果对比,可以在评论区留言,我会挑选出比较有代表性的模型来继续做对比测试。

生成 / 转为 XXX 风格的图像

先拿最火的吉卜力风格来说,用户只需输入 " 把这个图片转为吉卜力风格 ",并上传图片,GPT-4o 便可以将一张极具写实风格的照片转换为宫崎骏笔下的治愈系童话。

无论笔触、调色都让人感觉来自真实的艺术家之手,这是最近一段时间里,大家都在跟风尝试的方式。

例如,我随便选一张善友教授的照片,发送给 GPT-4o 并要求转为吉卜力风格图像,结果显示:

即梦 AI 生成的效果似乎还不错,再比如我选一张教授与其他同学家属互动的照片:

GPT-4o 一次生成的完成度已经相当不错了,同样的内容再分别由即梦 AI 处理,生成的结果如下所示:

整体而言,即梦的处理速度相当快,真实体感在 3-5 秒的时间内便能生成内容相近的四张图。

如果用户认可某一张的细节,可以再次要求就某一张生成高清的版本,响应速度方面即梦非常有优势。

但也可以明显发现,即梦对于吉卜力风格的把握依然不够成熟,这或许与模型能够参考的数据有关系。

即梦 AI 生成的图片更偏向通俗意义上的漫画风格,而非辨识度很高的吉卜力风格,在依据用户提示词的生成效果上是打了折扣的。

除了转换图片的风格外,GPT-4o 文生图的能力也相当亮眼,同样以吉卜力风格为例:

(来源:网络)

结果很不错,GPT-4o 生成的海边小镇场景是很有代表性的吉卜力风格,治愈系的气息以及色彩、纹理、街景,都是宫崎骏系列电影中常见的笔触。

再用相同的提示词来询问即梦 AI:

相对而言,完成度也很不错,但同样的问题再次显现——

吉卜力的风格特征相对并不充分,与 GPT-4o 相比效果还是打了折扣的。

再来看进阶一些的玩法,例如上传一张图并给出提示词:" 以 XXX 风格重新设计图像并保留所有细节 ":

一句话就能切换吉卜力、粘土风、皮克斯 3d 动画风、像素风、漫画风等等,不需要额外的描述。

同样的内容即梦 AI 也可以实现,大体上的特征还是遵循了提示词的要求,但效果确实不够精细。

即梦 AI 对于图片风格有一定的把握,但的确不够——

同一风格生成的不同图片差异度甚至比生成不同风格的图片还要大,说明识别、生成能力与稳定性都有待提高。

艺术功能应用

简单的风格转换功能测试过后,我们再来看文生图模型最重要的功能之一——

对于艺术创作工作的实现程度。

GPT-4o 作漫画的能力同样也是大家津津乐道的地方,我们拿一段网上的资料来对比。

例如给出提示词:

制作一个 4 格漫画的图像:

第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛 " 你在做什么 ",小牛说 " 在做草莓果酱 "

第二格:小老鼠又和小老虎打电话,小老鼠问小老虎 " 你在做什么 ",小老虎说 " 在和弟弟一起剪纸帽子 "

第三格:小老鼠又和小兔子打电话,小老鼠问小兔子 " 你在做什么 ",小兔子说 " 在做胡萝卜汤 "

第四格:小老鼠又和小羊打电话,小老鼠问小羊 " 你在做什么 ",小兔子说 " 在青青草原吃草 "

输出结果显示:

(提示词及生成图源自网络)

同样的内容我们交给即梦 AI 来处理:

文本的遵循效果并不太好,对话内容还是比较混乱,但画面风格相较于 GPT-4o 而言更为丰富,且每一张图风格各有不同,在创意的效果上来说是有优势的。

更进一步创作的话可以发现,如果想要更经典的黑白漫画,也只需要给 GPT-4o 追加提示:应用黑白日漫风格,即可得到:

即梦 AI 虽然也能创作出符合要求的作品,但漫画比较简单,还无法达到类似人工创作的精细程度。

除此以外,还有一些有意思的图片效果,例如给老画填充颜色:

(图源自网络)

再例如生成一些海报,提示词:创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。"

左边为 GPT-4o 的输出结果,右边为同样提示词的即梦 AI 输出的结果:

相对而言,即梦的内容更为丰富一些,但种类不算齐全,但在后续的测试中可以修改提示词继续丰富鲸鱼种类。也就是说,在海报生成一方面上,二者能力基本相当。

GPT-4o 也可以直接做解剖图

(上图为 GPT-4o 生成,图源自网络)

(上图为即梦 AI 创作,提示词:生成一幅蜜蜂的解剖图并用中文注释)

即梦 AI 也可以生成不同样式的解剖图,但标注的文字比较混乱,这种情况在很多需要文字描述的图片中广泛出现。

除了海报和插图,还有网友发现可以用 GPT-4o 给自己家的房子生成装修效果图

这种情况,我也在即梦 AI 中引入了简单的毛坯房图片并进行了应用,结果如下:

在不加以限制的情况下,它对于装修方案的生成还是较为不错的,同样的户型不同的风格有了一个概念效果。

而当我同样将要求作为提示词输入后,生成效果如下所示,其结果还是很令人惊喜的。

装修效果图效果还不错,家装行业的设计师估计坐不住了。

而坐不住的不仅仅是家装行业,实际上做广告图也不需要模特了。

(GPT-4o 结合昂跑商品图生成的模特展示,注:源自网络)

GPT-4o 在商品模特上身图上,生成的效果还比较好,而在即梦 AI 的体验上就比较糟糕了:

在不同的提示词下,只要提供了参考图,即梦 AI 生成的效果图中基本还是以参考图的展示为主,而且经测试,AI 的逻辑还无法立体理解一个物体的样貌,

当然,或许也是参考图的权重过重导致。

类似的问题,还出现在以下关于项链的佩戴示图上:

项链的佩戴效果惨不忍睹,已经出现了明显错误,这一点确实很影响使用体验。

再比如把古人像作转为清晰拍摄的照片

提示词:把这个场景变成一张照片。用数码单反相机   ( DSLR )   拍摄。

输入图片并得到反馈:

在这里我还想介绍一个新的 AI 模型工具:Reve Create,它对于真实图片的生成效果相当不错,比如我希望它能为我生成杜甫的真实照片,可以得到:

甚至于,前几天混沌学园公众号发布了一篇以查理 · 芒格角度解读关税政策的文章,我也用这个模型生成了一张特朗普和查理芒格交谈的照片,结果显示:

画面逼真程度几乎以为拍摄完成。

但该工具还无法上传参考图,对于图片的生成完全依赖文字描述,这一点上确实会限制其功能的发挥。

比如,生成一幅菜谱

(上图来自 GPT-4o,下图来自即梦 AI)

经测试,即梦 AI 离开完整的提示词,很难直接生成一份菜谱,生成的均为菜品的效果图。

小结:

此次模型功能的对比主要是由 GPT-4o 和即梦 AI 完成,可灵 AI 在图片转视频的效果上相当出色,但由于相对较久的排队等待情况不利于生成图片的测试,所以整体测试还是由即梦 AI 完成。

(可灵 AI 图片生成的效果)

需要注意的是,即梦 AI 和可灵 AI 均为创意激发 AI,它们集成了较多的 AI 功能——图文、视频、数字人等。本次测试主要用到的是图文功能,不能代表模型的完整水平,有需要的同学还要自己上手测试才能看到真实、有针对性的效果。

从测试的结果来看,GPT-4o 的图文能力要超越国内主流图文 AI,但就功能效果而言,国内对应 AI 基本能够实现下位替代。

目前图文模型间也存在一些通病,比如在一些文字内容复杂度较高的图片中,文字的展示效果相当不理想,这一点在 GPT-4o 上也不例外。

下图所生成的长图以及元素周期表都可以看到文字效果的问题:

在 GPT-4o 的官方文档中,开发者列举出了一些详细的模型缺陷,而这几乎也是所有图文模型共性的存在:

1、裁剪:GPT-4o 有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。

2、编造信息:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。

3、高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现   10-20   多个不同的概念,例如完整的元素周期表。

4、精确绘图:模型可能在绘制涉及数据的图表时不准确。

5、多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。

6、编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但 OpenAI   预计将在一周内修复该错误。

7、小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。

参考资料:

1.GPT-4o   引爆全球吉卜力风格生图潮流!附 10+ 玩法与教程

2.Alan 李厂长:《AI 不无聊》第 2 期|GPT-4o   的生图能力,正在颠覆创意产业链的 " 底层逻辑

3. 新智元:不止吉卜力!GPT-4o 新玩法全网疯传,网友:AI 成精了

4. https://openai.com/index/introducing-4o-image-generation/

读完同学 Z 的这篇文章后,我们不难发现,无论是 GPT-4o 的吉卜力童话、即梦 AI 的秒级出图,或是 Reve lmage 近乎真实的场景生成,这场 AI 图像革命早已超越了 " 技术秀场 " 的范畴,它正在悄然重构企业与用户之间的创造力边界。

对每一位混沌同学而言,这不仅是工具的迭代,更是一次重新定义创意生产关系的机遇。

未来已来,未来的竞争一定会属于 AI 与人工协同的模式,这一点,混沌的同学需要早有意识,也要尽早布局。

2025 李善友开年大课门票售卖倒计时 6 天:

今天,我们站在旧时代和新时代的晨昏线上,

移动互联网的大船已开到了世界尽头。

今天,所有不用 AI 的企业都成了传统企业,

所有不用 AI 的人都成了传统从业者。

今天,混沌大课呼应 AI 时代蜕变重生,

我们要陪伴万分之一的先锋者,

一起提前半步,走入 AI 的黎明。

课已经 10 年,如果说过去我是在迭代,那么今年我可能会重构,因为时代变了,AI 的黎明呼啸而来。

" 第一批 iPhone 的使用者,最早在移动互联网创业成功 "。没有人愿意错过 AI,混沌已经 All in。

今年大课,我想站在 AI 世界的基座上去讲述,这三年,我们亲身探索关于 AI 的一切,AI 和创新将开启一个什么样的文明。

我想邀请地球上最硬核、最新锐、最有梦想的创造者们,一起来走入混沌,走出混沌。在时代混沌的转折期,你的一个想法,可能就是未来文明的火种。

——李善友 混沌创办人

4 月 25 日 -4 月 26 日,在杭州大会展中心,善友教授会用 2 天时间,为混沌同学做闭门分享。如果你正好有时间,千万不要错过善友教授的年度分享,它会帮助你在 AI 时代找寻新的机会和方向。

现场没有直播,是与善友教授面对面地流淌。

现在,我们诚挚地邀请你来参加,这场面向未来的 AI 盛会。

点击下方购票链接,可以了解到更多票务信息。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 快手 效果 于吉 童话
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论