
智东西
作者 | 李水青
编辑 | 云鹏
智东西 2 月 27 日报道,刚刚,谷歌正式发布其最强图片生成和编辑模型 Nano Banana 2(Gemini 3.1 Flash Image),该模型已在谷歌 Gemini 应用、搜索、AI Studio 等谷歌全线产品中上线。

谷歌官宣 Nano Banana 2 发布
Nano Banana 2 兼具 Pro 级功能与 Flash 级速度,在世界知识、图像质量、推理能力和主体一致性等方面实现了全面升级,在基准测试中大幅超越了 GPT-Image 1.5、Seedream 5.0 Lite、Grok Imagine Image Pro 等业界领先模型,配合思考模式、文本和图像搜索工具则全面超越 Nano Banana Pro。

Nano Banana 2 基准测试成绩
智东西第一时间对 Nano Banana 2 进行了体验,发现 Nano Banana 2 生成图片细节逼真度增强,指令精准执行上表现超出预期,文字渲染能力和中国传统文化储备提升,且在处理复杂场景方面明显提升。
比如我们让 Nano Banana 2 和 Nano Banana Pro 基于围绕 "60 岁亚洲渔夫 " 的一段相同的提示词生成图片,前者生成效果明显更逼真、细节更丰富,指令遵循准确度更高。

Nano Banana 2 生成

Nano Banana Pro 生成
提示词:一位年约 60 岁的亚洲渔夫的超高清面部特写,海浪作为背景虚化。他脸上布满饱经风霜的皱纹和晒斑,皮肤纹理极其细腻,能看到细小的毛孔和银色的胡茬。阳光从侧面 45 度打来,照亮他半张脸,眼睛微眯,眼神中透露出坚毅与平静,眼球表面映出远处海平面的反光。画面锐度极高,皮肤质感真实到仿佛能触摸到。
不过 Nano Banana 2 仍被经典的 " 时钟 + 满杯红酒 " 问题难倒,在同时面临多物体 + 物理逻辑 + 光影难题等多重问题时生成仍不准确(后文第一部分详解)。同时,一些图片仍有 "AI 感 ",无法做到完全以假乱真。不过话说回来,瑕不掩瑜,Nano Banana 2 相比 Nano Banana Pro 跨代升级明显。
虽然效果更强、速度更快,但 Nano Banana 2 的价格不增反降。在谷歌 AI Studio 平台,Nano Banana 2 相比 Nano Banana Pro 的输入图片的单价从 2 美元降至 0.5 美元,输出图片的单价也从 0.134 美元减半至 0.067 美元。

Nano Banana 2 的价格不增反降
去年 8 月,Nano Banana(Gemini 2.5 Flash Image)席卷全球并重新定义图像生成;11 月,基于 Gemini 3 Pro 的 Nano Banana Pro 更是凭借更强智能和创作控制力,成为 AI 生图圈接近 " 封神 " 的存在;今天,谷歌首度将两者的优势结合打造一款全新定位的模型。
按照谷歌的设计,Nano Banana Pro 适合对事实准确性要求最高的专业任务,而 Nano Banana 2 则适合快速生成、精确指令遵循和图像搜索集成的工作场景。
在谷歌 Gemini 应用,Nano Banana 2 已取代 Fast、Thinking 和 Pro 版本中的 Nano Banana Pro,Pro 和 Ultra 订阅用户仍可按需继续选择使用 Nano Banana Pro。

Nano Banana 2 已上线谷歌 Gemini
一、1 分钟生成 4K 图片,细节更逼真,破解 " 时钟生成难题 "
智东西第一时间对 Nano Banana 2 进行了体验,发现其在指令精准执行上表现很好,而且中文乱码问题上也改善明显,对中国传统文化理解超出预期。
如下图所示,当智东西要求 " 一只大熊猫写毛笔字 " 的相关图片,Nano Banana 2 不仅准确生成了 " 熊猫丝丝入扣的毛发 "、" 珠翠和绒球质感真实 ",茶馆窗外景观和摄影风格都遵循了指令。在文字渲染上," 生成式 AI" 笔锋流畅且基本没错别字,但 " 式 " 的左下部分的 " 工 " 书写不太规范。

智东西用 Nano Banana 2 生成的图片
提示词:一只戴着中国传统京剧头饰的可爱大熊猫,正坐在现代中式茶馆里,用毛笔在宣纸上书写汉字 " 生成式 AI"。要求熊猫的毛发丝丝入扣,头饰上的珠翠和绒球质感真实,写出的毛笔字 " 生成式 AI" 笔锋流畅且没有错别字。茶馆窗外是模糊的未来都市景象(深圳天际线)。画风要求是超写实摄影与工笔画融合的风格。
Nano Banana 2 在特殊角度的透视还原上也比较逼真。如下图所示,下图围绕 " 仰视视角拍摄一位芭蕾舞演员腾空跃起的瞬间 " 主题生成,Nano Banana 2 实现了对下对面部比例和透视的准确控制,下巴、下巴的阴影以及舒展的身体线条,包括专注的眼神都精准呈现,形态没有畸变。
提示词:仰视视角拍摄一位芭蕾舞演员腾空跃起的瞬间。镜头从下往上,观众看到她的下巴、下巴的阴影以及舒展的身体线条。她的双臂张开,舞裙飞扬,面部表情专注而宁静,眼神望向远方。舞台灯光从上方打下,在她面部形成强烈的明暗对比。要求下巴到额头的透视关系准确,没有畸变。
在多人物互动与情感交流的生图体验中,Nano Banana 2 准确还原了新娘和新郎笑中带泪的对视场景,准确呈现了提示词内容,包括 " 西装面料纹理 "、" 模糊的草坪和鲜花拱门 " 都精准呈现。新郎新娘动作、表情和延伸都比较自然,但新郎眼角流出的眼泪在折射和流体形状上不太自然,让人有些 " 出戏 "。
提示词: 一对新婚夫妇在婚礼上的 First Look 瞬间。新娘穿着洁白婚纱,从背后轻轻蒙住新郎的眼睛,新郎转过身来,两人相视而笑,眼中含泪。阳光透过树叶洒在他们身上,婚纱的蕾丝细节、新郎西装的面料纹理清晰可见。背景是模糊的草坪和鲜花拱门,画面充满幸福甜蜜的氛围。
下面这个例子进一步体现了 Nano Banana 2 精准指令遵循特征。当我上传了三张图片,让 Nano Banana 2 将下面左图停车场中的小车替换为右图两个小车时,其在保持原图一致性的基础上将其中几辆小车替换,替换后的车辆与其他车辆的比例保持一致,车下的太阳光阴影也符合物理规律。

提示词:将图 1 中停车场中的小车替换为图 2、图 3 中的小车,要求画面风格一致,符合物理规律。
很多海内外用户也肯定了 Nano Banana 2 的跨代升级,Nano Banana 2 在处理复杂场景和细节密度方面明显提升。
一位网友分享了 " 一个复杂的城市场景 " 的生成图。如下图所示,光照一致性和人群构成令人印象深刻。这位网友称,大多数 AI 图像生成器都难以处理像这样复杂的场景——多人、反射、多变的光照,Nano Banana 2 在处理细节密度方面远超预期。

社交平台 X 网友分享的 Nano Banana 2 生成图
Nano Banana 2 还解决了 " 时钟难题 "。一位网友很兴奋地称:" 终于!Nano Banana 2 可以精准生成时钟了?!" 他输入的提示词是 " 传统时钟 21:35",这一任务考察模型将抽象数字转化为时钟精细具象表达的能力,此前 Nano Banana Pro 在多次处理这一任务中都失败了。

Nano Banana 2 生成的时钟图

Nano Banana Pro 生成的时钟图
但这位网友也提到,可惜的是,当面临复杂一些的时钟和满杯酒测试,Nano Banana 2 的生成效果依旧差了一点。Nano Banana 2 还是没有完全通过时钟和满杯酒测试,时针和分针搞反了。看来 AI 一直以来的准确性难题依旧难以解决。

Nano Banana Pro 生成的时钟和满杯酒测试
不过,话说回来,Nano Banana 2 确实性价比可观。一位中国网友称:"Nano Banana 2 出来了,产图真的是又快又好,不到一分钟就能产 4K 图。比 Nano Banana Pro 效果好、快、便宜。谷歌特有的以下克上,倒反天罡?"

X 网友分享的 Nano Banana 2 生成图
二、核心升级点:更全世界知识、更精准文本渲染、更强创作控制力
看完实测体验,再来看看 Nano Banana 2 的具体升级点。
谷歌称,该模型将 Gemini Flash 的高速应用于图像生成,实现了快速编辑和迭代。同时,它试图让更多用户用上了原本 Pro 版才有的功能:
1、先进世界知识:模型调用 Gemini 的真实世界知识库,并结合网络搜索获取的实时信息和图像,能够更准确地呈现特定主题。这种深度理解还可用于创建信息图表、将笔记转化为图表,以及生成数据可视化内容。
2、精准文本渲染与翻译:Nano Banana 2 可为营销素材或贺卡生成准确易读的文本。用户还可以翻译和本地化图像中的文字,与全球受众分享创意。
下图是谷歌官方公布的示例图片,围绕 " 一张平铺式的信息图,描绘了水循环 " 主题生成,可以看到谷歌比较强调 Nano Banana 2 的科学知识储备和将抽象知识转化为具象图像的能力。

谷歌官方公布的 Nano Banana 2 生成图
同时,Nano Banana 2 还具备更强的创作控制力。
Nano Banana 2 大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像。相比初代 Nano Banana,主要改进包括:
1、主体一致性:在单个工作流中,最多可保持五个角色的形象相似性,以及最多 14 个对象的特征一致性,方便进行故事板绘制和叙事创作。
2、精确指令遵循:增强的指令执行能力让模型能更严格地遵循复杂要求,精准捕捉你的创意细节,确保生成结果符合预期。
3、生产就绪规格:支持从 512px 到 4K 的多种分辨率和宽高比,无论是竖屏社交媒体还是宽屏背景,都能输出清晰锐利的视觉效果。
4、画质提升:Nano Banana 2 呈现更鲜艳的光照、更丰富的纹理和更清晰的细节,在保持 Flash 系列速度的同时,实现了高质量的画面效果。
下图展示了 " 农场里换了的任务和物品 " 主题图生成,输入 15 个图像素材,Nano Banana 2 讲这些包含动物和农场所需物品融合生成了一张符合主题的图片,突出了主题一致、精准指令遵循等特征。

谷歌官方公布的 Nano Banana 2 生成图
三、三款示例应用发布,全球广告本地化降本 " 神器 " 来了
Nano Banana 2 利用 Gemini 模型丰富的全球知识,通过网络搜索图像来创建增强的视觉效果。为了展示这种视觉基础的实际应用,谷歌构建了一个名为 " 靠窗座位(Window Seat)" 的示例 App,该 App 利用 Nano Banana 2 的知识和网络图像搜索来创建受世界各地位置和实时天气数据启发的逼真窗景。

靠窗座位(Window Seat)App
Nano Banana 2 在之前的 Flash 图像模型基础上进行了升级,提供了更可靠的文本渲染效果。谷歌开发了一款名为 " 全球广告本地化器(Global Ad Localizer)" 的演示 App,它可以将广告翻译成不同语言,以适应国际市场。

全球广告本地化器(Global Ad Localizer)App
Nano Banana 2 兼具速度和视觉保真度,呈现生动的光照、更丰富的纹理和更清晰的细节。现在,用户可以通过多种高级创意功能更好地控制这些高保真输出:
原生宽高比:无缝生成或编辑图像以满足用户的项目需求,我们原生支持所有现有宽高比,现在还新增了 4:1、1:4、8:1 和 1:8。在此处查找支持的宽高比的完整列表。
新增 512px 分辨率:优化效率。继 1K、2K 和 4K 分辨率之后,这一全新分辨率级别可最大限度地减少延迟,从而实现快速迭代和高负载处理流程。
改进的指令遵循:该模型更加严格地遵循复杂的、多层的开发者提示,有助于确保应用程序请求的图像就是生成的图像。
可配置的思考模式:用户现在可以更好地控制模型的推理过程。调整思维水平(最低(默认)与高 / 动态),使模型能够在渲染之前推理复杂的提示,从而显著提高输出质量和提示遵循度。
其 " 宠物护照(Pet Passport)" 演示版只需拍摄用户宠物的一张照片,即可带领它开启环球旅行,游览世界各地著名地标。它能确保宠物在不同的目的地保持相同的形象。

宠物护照(Pet Passport)App
四、Nano Banana 2 谷歌全线产品上线,Pro 版仍有适用场景
Nano Banana 2 即日起在谷歌全线产品中上线,包括:
Gemini 应用:Nano Banana 2 将取代 Fast、Thinking 和 Pro 版本中的 Nano Banana Pro。Google AI Pro 和 Ultra 订阅用户仍可通过三点菜单重新生成图像,在特定任务中继续使用 Nano Banana Pro。
Nano Banana Pro 适合对事实准确性要求最高的专业任务,而 Nano Banana 2 则适合快速生成、精确指令遵循和图像搜索集成的工作场景。
搜索:可通过谷歌应用以及移动和桌面浏览器,在 AI 模式和 Google 镜头中使用。支持范围新增 141 个国家和地区以及 8 种语言。
AI Studio+API:已在 AI Studio 和 Gemini API 中提供预览版。定价信息可点击查询。Google Antigravity 也已集成。
Google Cloud:可通过 Vertex AI 中的 Gemini API 预览使用。
Flow:Nano Banana 2 已成为 Flow 的默认图像生成模型,对所有 Flow 用户免费开放。
广告:Nano Banana 可用于广告场景,在创建广告系列时提供建议。
结语:全球 AI 生图赛道竞赛升级
全球 AI 生图赛道竞赛正在升级。在国内,字节 Seedream 5.0、阿里 Qwen-Image-2.0 等国产模型的密集出击,交出了优秀的成绩;在国外,谷歌正将战火从单纯的画质比拼,引向世界知识集成、精准指令执行和生产效率的综合较量,开辟新战场。
随着 Nano Banana 2 的发布,谷歌在图像生成产品矩阵实现更清晰切割:Pro 版驻扎专业高地和事实准确性,Flash 版则以更快、更便宜、足够好的策略抢占规模化应用场景。该模型全线登陆谷歌产品矩阵并大幅降价,AI 图像生成的竞赛已从 " 能不能画 " 迈入 " 画得多快、多准、多便宜 " 的新阶段。


登录后才可以发布评论哦
打开小程序可以发布评论哦