字母榜 4小时前
Nano Banana,OpenAI你学不会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

奥特曼向 OpenAI 的全体员工发了一封内部信,他坦言道,虽然 OpenAI 仍处于领先地位,但是谷歌正在缩短差距。并奥特曼也承认,正是由于谷歌最近一系列的产品发布,为 OpenAI 带来了不小的压力。

事实也正如奥特曼所言,谷歌这次带来的,除了赢得满堂彩的 Gemini 3 Pro,还有让整个 AIGC 圈震撼的 Nano Banana Pro。在此之前,所有生图模型的底层逻辑都是临摹世界。通过海量的数据库,寻找最接近描述的图,将其拼凑给你。

而 Nano Banana Pro 的出现,则彻底打破了这个规则。它并不是在 " 画图 ",而是在 " 模拟物理世界 "。其最大的突破在于,引入了思维链(Chain of Thought)推理机制,先让模型进行思考,再去画图。

在落下第一个像素之前,模型会先在潜空间内进行逻辑推演,计算物体的数量、确定光影的投射角度、规划空间嵌套关系。它不再依赖文本作为中转站,推理结果直接以高维向量的形式指导像素生成。

那么问题来了,为什么 OpenAI 开发不出 Nano Banana Pro?

01

在回答问题之前,不妨先看看 Nano Banana Pro,它和 OpenAI 现在生图主要使用的 GPT-4o 到底有何区别。

以 " 三个苹果 " 的生成任务为例,提示词为:" 左侧苹果带有咬痕,中间苹果附着水珠,右侧苹果呈现腐烂状态 "。面对这一指令,GPT-4o 通常会迅速生成一张色彩明艳、构图完美的图像。

但在细节核验时往往暴露出概率生成的缺陷,中间苹果上面的水珠其排布不符合客观规律,而右边苹果的腐烂看起来又过于刻意。

相比之下,Nano Banana Pro 输出的图像不仅数量精确,且每个对象的属性都严格对应——左侧的缺口、中间的折射光感、右侧的氧化纹理,均被精准还原。

这种表象差异的背后,是两条截然不同的技术路径。

GPT-4o 的生成机制本质上基于统计学相关性,它在海量训练数据中检索 " 苹果 + 咬痕 " 的视觉特征,并通过概率分布进行拼贴与融合。它并未真正理解 " 三个 " 的数量概念,也未构建 " 腐烂 " 的物理模型,仅是根据高维空间中的特征距离进行近似匹配。

而 Nano Banana Pro 引入了思维链 ( Chain-of-Thought, CoT ) 机制,将图像生成过程从单纯的 " 像素预测 " 升级为 " 逻辑推演 "。在落下第一个像素前,模型内部已完成了一轮符号化的规划:首先确立实体对象 ( Object 1, 2, 3 ) ,随即分配空间坐标,最后绑定物理属性。

针对 " 咬痕 ",它推演的是几何形态的改变;针对 " 水珠 ",它计算的是光学反射与折射的物理规律;针对 " 腐烂 ",它模拟的是材质属性的演变。这是一套从语义理解到逻辑规划,再到执行生成的全链路闭环。

这种机制在处理涉及物理规律的复杂场景时优势尤为凸显。

提示词 " 窗台上的半杯水,阳光从左侧射入 "。

GPT-4o 所生成的图片,仅 0 具备视觉合理性,但在物理上自相矛盾的光影关系。此时,窗台左侧应存在由玻璃杯反射出来的阳光,但是图片中仅存在右侧折射出来的光线。

而具 Nano Banana Pro 会先行计算光源向量,推导阴影投射方向以及液体介质的光线折射率。这种基于物理常识的推理,使得生成结果不再是视觉元素的堆砌,而是对物理世界的数字模拟。

更为深层的架构差异在于,OpenAI 目前的体系存在显著的 " 文本信息瓶颈 " ( Text Information Bottleneck ) 。在 ChatGPT 中调用绘图功能时,用户的简短指令往往会被 GPT 改写为一段详尽的 Prompt,再传递给图片生成模型。

这一过程看似丰富了细节,实则引入了噪声。文本作为一维的线性信息载体,在描述三维空间关系、拓扑结构及复杂的物体属性绑定时,存在天然的低带宽缺陷。改写过程极易导致原始意图中的关键约束被修饰性语言淹没,造成信息的有损传输。

此外,汉字对于图片生成大模型来说也是一个噩梦。GPT-4o 在很长时间里,写字都是 " 乱码生成器 ",甚至让它写 "OpenAI",它都能写成 "OpanAl" 或者一堆奇怪的符号。

我让 GPT-4o 以字母榜 LOGO 为参考,生成一个字母榜的招牌。

但 Nano Banana Pro 实现了对文字的精准控制。在同样的提示词下,Nano Banana Pro 提取出了上方的字母榜,左右两侧的 A 和 Z,以及最下方的弧线,并将这些元素置于不同的图层、不同的材质。

Nano Banana Pro 则采用了原生多模态 ( Native Multimodal ) 架构,这是一种统一模型的解决方案。

用户的输入在模型内部直接映射为包含语义、空间及物理属性的高维向量,无需经过 " 文本 - 图像 " 的转译中介。这种端到端的映射关系,如同建筑师直接依据蓝图施工,而非依赖翻译人员的口述传达,从而根除了中间环节的信息熵增。

但这也造成了另外一个问题,提示词门槛被拉高了。我们回到一开始三个苹果的提示词上。

这是输入给 GPT-4o 的提示词,简单易懂,就是在描述画面构成。

而这是给 Nano Banana Pro 的提示词。看起来就像 Python 代码一样,通过函数和()来控制生成的图片。

在涉及计数、方位布局、多物体属性绑定 ( Attribute Binding ) 等精确控制任务上,Nano Banana Pro 表现出色。它能清晰区分不同对象的属性归属,避免了扩散模型常见的 " 属性泄露 " 问题 ( 如将红杯子的颜色错误渲染到蓝杯子上 ) 。

当然,GPT-4o 依然保有其独特的生态位。其优势在于推理速度与基于 RLHF ( 人类反馈强化学习 ) 调优后的审美直觉。

由于剥离了复杂的逻辑推理环节,其生成效率更高,且更能迎合大众对高饱和度、戏剧化光影的视觉偏好。对于追求视觉冲击力而非逻辑严谨性的通用场景,GPT-4o 依然是高效的选择。

然而,当需求从 " 好看 " 转向 " 准确 ",从 " 相关性 " 转向 " 因果性 ",Nano Banana Pro 所代表的 " 先思考、后执行 " 模式便构成了降维打击。它牺牲了部分的生成速度与讨好眼球的滤镜感,换取了对物理逻辑的忠实还原。

02

橘生淮南则为橘,生于淮北则为枳。Nano Banana Pro 和 GPT-4o 之所以会有如此的差距,正是因为其开发者,谷歌和 OpenAI 在 AI 这条路上,选择两种完全不同的发展方向。

谷歌选择的是 " 原生多模态 " 这条路。

就是从模型训练的第一天起,文本、图像、视频、音频就混在一起,扔进同一个神经网络里让它学。在 Gemini 的眼里,一这些事物本质上没有区别,都是数据。它不需要先把图片翻译成文字,再去理解文字。

这就像一个人从小就会说中文、英文、法文,这三种语言在他脑子里是同时存在的,他不需要先把英文翻译成中文再思考。

而 OpenAI 走的是 " 模块化拼接 " 这条路。

它的逻辑是,让专业的人做专业的事。GPT-5 负责理解语言和逻辑推理,GPT-4o 负责生成图像,Whisper 负责处理语音。

每个模块都做得很好,然后通过 API 把它们连起来。这就像一个团队,有文案、有设计师、有程序员,大家各司其职,通过开会和文档来协作。

这两种路线,没有绝对的对错,但会导致完全不同的结果。

谷歌最大的优势,来自于 YouTube。这是全世界最大的视频库,里面有几十亿小时的视频内容。这些视频不是静态的图片,而是包含了时间序列、因果关系、物理变化的动态数据。Gemini 从一开始就是 " 看这些视频长大的 "。

换句话说,Gemini 从诞生之初,就理解物理世界的基本运行逻辑。杯子掉在地上会摔碎,水倒进杯子里会形成液面。这些东西不是靠文字描述学来的,而是通过看真实世界的视频,自己总结出来的。

所以当你让 Nano Banana Pro 画 " 一个杯子从桌子上掉下来的瞬间 ",它不会画出一个漂浮在空中、姿态僵硬的杯子。它会画出杯子在下落过程中的倾斜角度,杯子里的水溅起来的形态,甚至是杯子即将触地时周围空气的扰动感。因为它见过太多这样的场景,它知道真实世界是怎么运作的。

除了 YouTube,谷歌还有另一个护城河:OCR。谷歌做了几十年的光学字符识别,从 Books 到 Lens,谷歌积累了全球最大的 " 图片 - 文字 " 对齐数据库。这直接导致了 Gemini 在文字渲染上的碾压性优势。

它知道汉字在图片里应该长什么样,知道不同字体、不同大小、不同排列方式下,文字应该怎么呈现。这也是为什么 Nano Banana Pro 能精准识别汉字。

反观 OpenAI,它的起家靠的是文本。从 GPT-1 到 GPT-3 再到 GPT-5,它在语言模型上一路狂奔,确实做到了世界顶级。但视觉能力是后来才加上去的。

DALL-E 早期是独立发展的,训练数据主要来自网络抓取的静态图片,来自 Common Crawl 这样的数据集。这些图片质量参差不齐,而且都是静态的,没有时间维度,没有物理过程,没有因果关系。

所以 DALL-E 学到的,更多是 " 这个东西大概长这样 ",而不是 " 这个东西为什么长这样 " 或者 " 这个东西会怎么变化 "。它可以画出一只很漂亮的猫,但它不理解猫的骨骼结构,不理解猫的肌肉如何运动,不理解猫在跳跃时身体会呈现什么姿态。它只是见过很多猫的照片,然后学会了 " 猫长这样 "。

更关键的是训练方式的差异。

正是因为 OpenAI 走的是 RLHF 路线。所以他们雇了大量的人类标注员,给生成的图片打分:" 这张好看吗?"" 这张更符合要求吗?" 标注员们在选择的时候,自然而然会倾向于那些色彩鲜艳、构图完美、皮肤光滑、光影戏剧化的图片。

这导致 GPT-4o 被训练成了一个 " 讨好型人格 " 的画家。它学会了怎么画出让人眼前一亮的图,学会了怎么用高对比度和饱和色来抓住眼球,学会了怎么把皮肤修得像瓷器一样光滑。但代价是,它牺牲了物理真实感。

GPT-4o 生成的图片,有一种很典型的 "DALL-E 滤镜 "。皮肤像涂了蜡,物体表面特别光滑,光影过度戏剧化,整体感觉就是 " 一眼假 "。它不敢画出皮肤上的毛孔,不敢画出布料的褶皱,不敢画出不完美的光照。因为在训练过程中,那些带有瑕疵的、粗糙的、不那么 " 美 " 的图片,都被标注员打了低分。

而谷歌没有走这条路。Gemini 的训练更注重 " 真实 " 而不是 " 美 "。世界本就如此,它没有书本里描绘的那么美。

03

那么谷歌又是如何追上 OpenAI,以至于让奥特曼发内部信来强调危机感的呢?

谷歌选择在 " 准确性 " 和 " 逻辑 " 上发力。谷歌将其称为 "Grounding",也就是 " 接地气 ",也就是 " 真实性 "。

为了实现这个目标,谷歌把思考过程,引入了图像生成过程。这个决策会大大增加计算成本,因为在生成图像的时候加入推理步骤,生成速度也就变慢了。但谷歌判断这个代价是值得的,因为它换来的是质的提升。

当你给 Nano Banana Pro 一个提示词,比如 " 画一个厨房,左边是冰箱,右边是灶台,中间的桌子上放着三个碗 ",模型不会直接开始画。它会先启动思维链:

首先,识别场景类型:厨房。然后,识别对象:冰箱、灶台、桌子、碗。接着,确定空间关系:冰箱在左,灶台在右,桌子在中间。再确定数量:三个碗。然后推理物理逻辑:厨房里通常会有什么光源?桌子应该离冰箱和灶台多远才合理?三个碗应该怎么排列?最后,确定视角和构图:从什么角度看这个场景最合适?

这一整套思考完成后,模型会在内部生成一些 " 思考图像 ",这些图像用户看不到的,但它们帮助模型理清了思路。最后,模型才开始生成真正的输出图像。

这个过程看起来复杂,但它解决了一个核心问题:让模型 " 理解 " 而不是 " 猜测 "。

GPT-4o 以及市面上绝大多数生成图片的模型,都是靠概率猜," 用户说厨房,那我就把我见过的厨房元素拼起来,大概就对了。"

而 Nano Banana Pro 则是真正去理解厨房这个概念:" 用户说厨房,厨房是用来洗菜做饭的,所以这个厨房需要满足这些空间关系和物理逻辑,我要按照这个逻辑来构建。"

反观 OpenAI,它目前的策略是把最强的推理能力集中在 o1 系列模型上,也就是之前代号为 Strawberry 的项目。o1 在数学推理和代码生成上确实很强,它能解决一些人类数学家都觉得有挑战的问题,能写出复杂的算法代码。

至于图像生成,OpenAI 的判断是:目前 GPT-4o 的 " 直觉式 " 生成已经足够好了,足够维持用户体验,足够在市场上保持领先,并不需要继续提升。

还有一个因素是产品理念的差异。OpenAI 一直强调的是 PMF,也就是 Product-Market Fit,产品市场契合度。它的策略是 " 快速迭代,快速验证 "。

DALL-E 3 只要能通过提示词和 GPT-4 拼起来用,那就先发布,先占领市场。后台的架构可以慢慢改,用户看不见的地方可以慢慢优化。

这个市场策略被称为 " 胶水科技 ",其最大的弊端在于积累的技术债太多了。当你一开始选择了模块化拼接的架构,后面想要改成原生多模态,就不是简单地加几行代码的问题了。这可能需要重新训练整个模型,需要重新设计数据管道,需要重新构建工具链。

谷歌慢工出细活,可他们也有自己的难处。

原生多模态模型的维护成本也更高。如果你想提升图像生成能力,就需要调整整个模型。这就是为什么,Nano Banana Pro 只能伴随着 Gemini 3 的更新,没办法自己单独更新。

这种 " 按下葫芦浮起瓢 " 的问题,在模块化架构里就不存在,因为当你你只需要优化图像生成模块,根本不用担心影响到文本模块。

所以 OpenAI 确实没办法训练出来 Nano Banana Pro。

然而这并不意味着谷歌可以高枕无忧了,因为 AI 领域迭代速度太快了。我敢打赌,不出半个月,就会有一大帮生图模型问世,直接对标 Nano Banana Pro。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 奥特曼 物理 指导 美的
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论