奥特曼,迎来至暗时刻。
Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,今天,被颠覆的行业轮到了设计行业,刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。

初级设计师的饭碗,怕是要端不稳了。
核心功能如下:
分辨率支持:可输出 1K、2K、4K 分辨率图像
多轮编辑:支持对话式、多轮次的图像编辑工作流
多图像合成:最多可将 14 张输入图像组合为 1 张输出图像
搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持
不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画
Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。

▲提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K
跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。
凭借 Gemini 3 增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。
朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。

▲提示词:将图片上的文字翻译为中文,并上色,其他不变
又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。

而在文字生成能力上,Nano Banana Pro 更是表现出色,无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。
64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能更好理解。

▲提示词:生成一幅 4K 古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。
针对前代分辨率偏低的老问题,Nano Banana Pro 把画质一步拉到 4K,还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。
Nano Banana Pro 还支持最多 14 张输入图像的组合编辑,同时保持最多 5 个角色的外貌一致。

配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的 3D 建筑,都能轻松实现概念到成品的跨越。

▲提示词:哆啦 A 梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦 A 梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节
更进阶的是专业级创意控制能力。
你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变焦点到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果,这些过去需要在 Photoshop 里精细操作的工作,现在只需要一句话。

▲提示词:Transform the [ camera ] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors ( such as bright cyan, magenta, yellow, pink ) , dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements ( background, other objects, environment ) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.
搜索 + 生成 = ?Google 给出了终极答案
如果说搜索是 Gemini 3 的「左脑」,那么图像生成就是其「右脑」。
这也是 Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能(Grounding with Search)。
当用户要求生成一张可视化的图片,展示在广州旅游的 2 天行程」时,Nano Banana Pro 生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3
这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是 Google 的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。
在产品定位上,Google 采用了双模型策略:旧版 Nano Banana 用于快速有趣的日常编辑,而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。
对于消费者与学生,Nano Banana Pro 已在 Gemini 应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版 Nano Banana。
而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区,Google 搜索的 AI 模式中,Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是,Google 在 AI 透明度问题上采取了双重策略。
所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印,用户现在可以在 Gemini 应用中直接上传图像,询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。
既然 Nano Banana Pro 已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?
Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。
一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。
而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16 竖版海报还是 21:9 电影宽屏)、镜头参数(低角度、浅景深 f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。
附上官方博客地址:https://blog.google/products/gemini/prompting-tips-nano-banana-pro/
这种「摄影指导式」的提示词写法,正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。

看到这里,再回过头看 Google 这几天连环发布的产品,就不难明白它想传达什么。
无论是前几天发布的 Gemini 3 Pro 预览版,还是今天亮相的 Nano Banana Pro ,Google 试图向世人证明:通往 AGI(通用人工智能)的道路,必须是多模态原生的。
只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。
从技术层面看,Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。
当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。

从商业层面看,极低的推理成本和生成式 UI 的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。
设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给 AI,再由人去补充或微调。Google 显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。


登录后才可以发布评论哦
打开小程序可以发布评论哦