Nano Banana Pro 深夜炸场，但最大的亮点不是 AI 生图

奥特曼，迎来至暗时刻。

Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域，今天，被颠覆的行业轮到了设计行业，刚刚发布的 Nano Banana Pro（Gemini 3 Pro Image）再次在图像生成能力上重拳出击。

初级设计师的饭碗，怕是要端不稳了。

核心功能如下：

分辨率支持：可输出 1K、2K、4K 分辨率图像

多轮编辑：支持对话式、多轮次的图像编辑工作流

多图像合成：最多可将 14 张输入图像组合为 1 张输出图像

搜索增强：集成 Google 搜索能力，提供更精确、最新的知识支持

不再「瞎猜」，Nano Banana Pro 终于学会了先思考再画画

Nano Banana 的招牌能力是角色一致性强、对话编辑方式，而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前，会先做一轮物理模拟和逻辑推演，而不只是凭视觉模式「胡猜」。

▲提示词：请绘制一张四宫格图片，四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」，人物外貌保持一致，口型准确对应每个字的发音，整体风格统一，16:9，4K

跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。

凭借 Gemini 3 增强的多语言推理能力，你可以直接生成多种语言的文字，或者一键本地化、翻译你的内容。

朋友丢来一页漫画，让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净，光影自然，文字识别准确，英文排版也和气泡形状严丝合缝，整个过程从识别到翻译再到重排一气呵成，表现得就像在真正「理解」这张图。

▲提示词：将图片上的文字翻译为中文，并上色，其他不变

又或者，设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料，现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式，正是原生多模态架构最具威力的一面。

而在文字生成能力上，Nano Banana Pro 更是表现出色，无论是一句短标语还是一整段文字，都能清晰可读，甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词：仿古籍线描插图风，关羽坐于油灯旁，身披宽袖战袍，神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物，以纤细线条勾画，保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架，简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主，呈现古书插画的文化韵味与历史感，4:3。

64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本，还是复杂的多语言排版需求，都能更好理解。

▲提示词：生成一幅 4K 古画，画上写着：明月几时有？把酒问青天。不知天上宫阙，今夕是何年。我欲乘风归去，又恐琼楼玉宇，高处不胜寒。起舞弄清影，何似在人间。转朱阁，低绮户，照无眠。不应有恨，何事长向别时圆？人有悲欢离合，月有阴晴圆缺，此事古难全。但愿人长久，千里共婵娟。

针对前代分辨率偏低的老问题，Nano Banana Pro 把画质一步拉到 4K，还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜，统统能直接生成。

Nano Banana Pro 还支持最多 14 张输入图像的组合编辑，同时保持最多 5 个角色的外貌一致。

配合多轮对话能力，用户可以不断调整、融合多个素材，直到达到理想效果。不论是把草图变成产品，还是将蓝图转换成逼真的 3D 建筑，都能轻松实现概念到成品的跨越。

▲提示词：哆啦 A 梦和李白在月下对酌。圆月高悬，古代亭台楼阁，哆啦 A 梦穿着唐朝服饰，李白持酒壶，石桌上摆着酒具，仙气飘飘，中日混合画风，精致细节

更进阶的是专业级创意控制能力。

你可以选择、微调或变换图像中的任何部分，从调整镜头角度、改变焦点到应用高级调色，甚至改变场景光照——把白天变成夜晚，或创造散景效果，这些过去需要在 Photoshop 里精细操作的工作，现在只需要一句话。

▲提示词：Transform the [ camera ] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors ( such as bright cyan, magenta, yellow, pink ) , dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements ( background, other objects, environment ) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.

搜索 + 生成 = ？Google 给出了终极答案

如果说搜索是 Gemini 3 的「左脑」，那么图像生成就是其「右脑」。

这也是 Nano Banana Pro（Gemini 3 Pro Image）架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能（Grounding with Search）。

当用户要求生成一张可视化的图片，展示在广州旅游的 2 天行程」时，Nano Banana Pro 生成的图片，包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求，从搜索中获取最新天气状况，再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词：搜索广州实时天气信息，制作一幅中文波普艺术风格的信息图，4:3

这项能力之所以重要，是因为它让创造过程具备了事实基础、实时性和可验证性。只能说，搜索不愧是 Google 的看家本领，无论是技术积攒的厚度，还是在理解上就已经领先一个身位。

在产品定位上，Google 采用了双模型策略：旧版 Nano Banana 用于快速有趣的日常编辑，而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生，Nano Banana Pro 已在 Gemini 应用中全球开放，只需选择「生成图像」并启用「Thinking（思考）」模式即可使用。免费用户会获得有限额度，超出后将自动切回原版 Nano Banana。

而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区，Google 搜索的 AI 模式中，Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是，Google 在 AI 透明度问题上采取了双重策略。

所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印，用户现在可以在 Gemini 应用中直接上传图像，询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。

既然 Nano Banana Pro 已经强大到这个地步，那么问题来了，普通人该如何最大化发挥它的能力？

Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南，其中透露出不少关键信息。最基本的使用方式当然是随便说一句话，让模型自己猜你想要什么。但如果你想达到专业水准，就需要像导演一样思考。

一个完整的提示词应该包含六个要素：主体（谁或什么）、构图（如何取景）、动作（正在发生什么）、场景（在哪里）、风格（什么审美）、编辑指令（如何修改）。

而如果你想要更精细的控制，还需要进一步明确：画幅比例（9:16 竖版海报还是 21:9 电影宽屏）、镜头参数（低角度、浅景深 f/1.8）、光线细节（逆光的黄金时刻，拉长阴影）、调色方向（电影级调色，偏青绿色调）、以及具体的文字内容和样式。

附上官方博客地址：https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法，正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语，并把它们准确地转化为视觉输出。

看到这里，再回过头看 Google 这几天连环发布的产品，就不难明白它想传达什么。

无论是前几天发布的 Gemini 3 Pro 预览版，还是今天亮相的 Nano Banana Pro ，Google 试图向世人证明：通往 AGI（通用人工智能）的道路，必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型，才可能对世界进行完整地「思考」。

从技术层面看，Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。

当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时，它就不再只是一个画图工具，而是一个具备视觉思维能力的智能体。

从商业层面看，极低的推理成本和生成式 UI 的出现，将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成，而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺，界面也不再是由团队层层打磨的成果。越来越多的视觉内容，会先交给 AI，再由人去补充或微调。Google 显然已经提前看见了那个新世界，并且开始把入口推到所有人面前。

宙世代

一起剪

相关标签