量子位 03-29
“计算机视觉被GPT-4o终结了”(狗头)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一夜之间,CV 被大模型 " 解决 " 了(狗头)。

万物皆可吉卜力之后,GPT-4o 原生多模态图像生成更多玩法被开发出来。

一个男友回头表情包,可以秒变语义分割图。

也可以秒变深度图。

这下不光上一代 AI 画图工具和设计师,计算机视觉研究员也哭晕在厕所了。

这是 NASA 前工程师测试特斯拉自动驾驶系统的伪装 " 隐形墙 ",在 GPT-4o 面前也无所遁形。

这下 OpenAI 应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。

3D 渲染领域也惨遭毒手,GPT-4o 可以生成 PBR 材质(基于物理渲染的材质),纹理、法线贴图等直接来一套。

对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet 就可以全部实现。

但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。

这波 GPT-4o 原生图像生成的技术细节,OpenAI 是一点也没有公布(粗节也没有公布)。

但还是有人从 System Card 中发现了蛛丝马迹。

与 DALL · E 是一个扩散模型不同,GPT-4o 图像生成是原生嵌入在 ChatGPT 内的自回归模型。

还有人观察图像的生成过程,发现很可能是多尺度自回归的组合,先生成一个粗略的图像,填充细节的同时,粗略图形本身也在变化。

自回归模型根据之前的像素或 patch 预测下一个像素或 patch,获得更好地遵循指令,以及图像编辑的能力。

但也有人引用发 OpenAI 员工 Allan Jabri 晒出的板书图,提出在解码阶段仍然有可能用了扩散模型。

针对这一猜想,更具体的实现方法可以参考 Meta 等 24 年 8 月的一篇论文:使用一个多模态模型同时预测预测下一个 token 和扩散图像。

最后,微信评论区能发图片了,欢迎大家把更多 GPT-4o 有趣玩法晒出来~

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

参考链接:

[ 1 ] https://x.com/fofrAI/status/1905289275316326679

[ 2 ] https://x.com/a_karvonen/status/1905372299814932963

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

速抢席位!中国 AIGC 产业峰会观众报名通道已开启  ‍♀️

首批嘉宾曝光啦   百度、无问芯穹、数势科技、生数科技、像素绽放等十数位 AI 领域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 nasa 计算机视觉 自动驾驶系统 the
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论