全天候科技 1小时前
Gemini 3又来炸场!谷歌大热生图模型升级,Nano Banana Pro提供“摄影棚级别”精度和控制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌的最强大人工智能(AI)模型 Gemini 3 刚发布两天,就来返场送惊喜了。

美东时间 20 日周四,谷歌宣布,基于 Gemini,升级其大热的图像生成与编辑模型。新推出的模型 Nano Banana Pro 号称能提供 " 摄影棚级别 " 的精度和控制,在文本渲染准确性、分辨率和专业控制能力上实现显著提升,旨在将 AI 图像工具从消费级应用推向专业设计领域。

Nano Banana Pro 支持生成最高 4K 分辨率的图像,可在多语言环境下精确渲染文本,并允许用户像使用专业相机一样控制拍摄角度、景深、色彩和光照等参数。谷歌 Labs 和 Gemini 副总裁 Josh Woodward 表示,该产品在信息图表制作、幻灯片设计等方面表现出色,可保持最多五个角色和十四个物体的一致性。

谷歌的全球免费 Gemini 用户将能够在配额限制内使用 Nano Banana Pro,超出配额后将自动切换回旧版模型,付费 AI 计划订阅用户则拥有更高使用额度。该模型已集成至 Canva、Figma、Adobe Firefly 和 Photoshop 等主流设计工具。

谷歌还同步推出了 AI 内容溯源功能。用户可在 Gemini 应用程序 App 中上传图像,查询其是否由谷歌 AI 生成,该功能未来将扩展至音频和视频。此举是谷歌将 AI 技术商业化的最新尝试,也是其在生成式 AI 竞赛中追赶 OpenAI 的重要一步。

这一发布延续了谷歌本周在 AI 领域的强劲势头。周二发布的 Gemini 3 在推理和编码能力上实现 " 巨大跃升 ",周三推动谷歌母公司 Alphabet 股价创历史新高。周四官宣 Nano Banana Pro 当天,股价早盘一度涨近 5%,但午盘追随大盘转跌,收跌约 1%,暂别周三刷新的收盘最高纪录。

攻克 AI 拼写难题,文本渲染实现突破

AI 图像生成模型长期面临的一个核心挑战是文本渲染准确性。虽然部分模型随时间推移改进,但在生成包含多个文本短语的图像时,拼写错误和字体扭曲仍然常见,这限制了其作为专业设计工具的潜力。

Nano Banana Pro 直接针对这一问题提供解决方案。谷歌发言人表示,新模型在渲染最终图像前,能够更好地规划文本位置、字体特征及其与其他图像元素的空间关系。该技术可将菜谱文本转换为图解流程图,或可视化天气、体育等实时信息。

Nano Banana Pro 支持生成清晰可辨的文本,用户可描述所需字体类型或模拟不同手写风格,还能在图像内生成本地化文本或翻译文字。这使用户能够创建针对国际市场的产品展示、海报和信息图表。谷歌在博客文章中强调,锐利、清晰的文本帮助用户制作富有冲击力的海报、复杂图表和详细产品模型。

不过谷歌也提醒用户注意局限性。新模型在生成信息图表、标注图表或呈现复杂数据时,可能误读信息或产生事实错误。虽然能够生成和翻译多语言文本,但在语法、拼写、文化细微差别或惯用语方面仍可能出现问题。用户应始终仔细检查生成的图像及其中文本的准确性。

专业级控制功能,分辨率跃升至 4K

Nano Banana Pro 为专业用户提供了前所未有的精细控制能力。用户可探索不同拍摄角度和类型,包括广角、全景、特写等,还能调整景深以聚焦图像中的不同主体。

在色彩和光照方面,用户可调整色调分级和光照方向,甚至可将场景从白天转换为夜晚。

模型支持 1K、2K 和 4K 三种分辨率的精准放大,并能随意切换纵横比以适配不同平台或用途。

分辨率提升的代价是成本增加和速度下降。原 Nano Banana 模型生成 1024 像素图像的成本为 0.039 美元,而新模型生成 1080p 或 2K 图像的成本为 0.139 美元,4K 图像为 0.24 美元。

在素材一致性方面,模型可在单一工作流程中保持最多五个角色的一致性和相似度,以及最多十四个物体的保真度。对于希望在营销活动中融入自身设计的品牌,模型可接收最多 14 张参考图像,并在用户文本提示描述的新场景中重新编排它们,同时保留输入素材的特征。

模型还能将草图转化为物体,将手绘笔记转为图表,将创意变成 3D 渲染建筑。用户可一次创建多张图像,快速高效地探索和审查创意选项。谷歌表示,模型还能创建具有真实细节的风景、植物、人物和动物的逼真图像。

广泛产品集成,付费用户获更高配额

Nano Banana Pro 正在谷歌现有 AI 工具中全面推广。Gemini App 将默认使用新模型生成图像,免费订阅用户可在限定配额内使用,超出后将切换回原 Nano Banana 模型。Google AI Plus、Pro 和 Ultra 订阅用户将获得更高生成额度,这些付费用户还可在 Notebook LM 中使用该模型。

在美国地区,AI Pro 和 Ultra 订阅用户可通过 AI 模式在搜索中访问该模型。Ultra 订阅用户还能在谷歌视频工具 Flow 中使用,Workspace 客户可在 Google Slides 和 Vids 中使用。开发者则可通过 Gemini API、Google AI Studio 和新 IDE Antigravity 调用 Nano Banana Pro。

谷歌同时将其 SynthID 技术整合至 Gemini 应用,用于为 AI 生成图像添加水印和检测。用户可上传图像,聊天机器人将告知该图像是否由谷歌图像模型创建或修改。谷歌目前为所有 AI 工具创建的媒体嵌入不可见的数字水印,免费或 Pro 方案的订阅用户创建的图像还会添加可见水印,订阅最高价 Ultra 方案的用户则可移除可见水印。谷歌未提及是否计划支持 C2PA 等其他 AI 水印标准。

用户增长强劲,商业化进程提速

Nano Banana Pro 的前身 Nano Banana 今年 8 月面世后在社交媒体上迅速走红,用户将自己或宠物的照片转化为超写实 3D 小雕像。Woodward 在 9 月的 X 帖子中写道,该产品帮助 Gemini 应用在四天内新增 1300 万用户。

据谷歌发布的数据,Gemini App 目前每月活跃用户超过 6.5 亿,由 Gemini 驱动的 AI Overviews 每月用户达 20 亿。相比之下,OpenAI CEO Sam Altman 在 10 月表示,ChatGPT 每周活跃用户达 8 亿。

Woodward 本周四表示,谷歌 AI 产品需求持续增长,许多用户注册 Gemini 订阅计划以获得 " 这些高级模型的更高限额 "。他表示," 我们看到大量用户涌向这些产品,这实际上是最好的问题——需求很大,我们正在努力弄清楚如何服务这些需求。"

此次发布标志着谷歌将 AI 技术商业化的最新尝试。自 2022 年 ChatGPT 发布引发生成式 AI 竞赛以来,谷歌一直在努力追赶 OpenAI。上周,OpenAI 宣布对 GPT-5 模型进行两项更新,使其 " 默认更温暖、更具对话性 ",并 " 在日常使用中更高效、更易理解 "。目前 ChatGPT 在苹果 App Store 免费应用榜单中排名第一,Gemini 位居第二。

Woodward 表示,公司计划继续扩大 AI 产品规模,重点包括 AI 电影制作工具 Flow 和目前作为有限研究预览版提供的 " 世界构建 " 模型 Genie。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 分辨率 竞赛 最高纪录
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论