视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

虽然 Coding 还是一坨，但谷歌搞「多模态」确实有两把刷子。

Gemini Omni Flash 正式开放 API，视频版 Nano Banana。

麻瓜爆改「哈利波特」不再是梦想。且看官方用 Gemini Omni 表演的这四个数字魔术：

太离谱了，这一致性和文字清晰度，还要啥绿幕和特效，直接现场直播奇异博士。

与此同时，大家心心念念的「香蕉」，也迎来了「光速版」。

Nano Banana 2 Lite：迄今为止最快、最经济高效的 Gemini 图像模型。

毫不夸张——4 秒出一张图，1K 分辨率图像仅需约2 毛多。

和 Nano Banana 2 放在一起对比，这个速度，简直起飞了。

更别说一次生图能干 3 分钟的 GPT Image 2 ……

怪不得半天没憋出来 Gemini 3.5 Pro，敢情时间全花在心心念念的多模态上了是吧，哈萨比斯！！

Gemini Omni Flash

Google I/O 2026 大会上首次亮相的 Gemini Omni Flash，把 Gemini 的多模态推理能力与视频生成、编辑深度结合，当时就引发了不少关注。

如今，这个模型已通过 Gemini API 和 Google AI Studio 正式向开发者开放。能基于文本、图像和视频等多种输入，轻松生成高质量视频并进行编辑。

四项关键能力：

对话式视频编辑：用自然语言修改和精修视频，跟改飞书文档似的。

多模态参考：组合图像、文本、视频输入，保持场景控制和一致性。

现实世界知识：调用 Gemini 在历史、生物、叙事逻辑等方面的知识来构建视频，不用你再写三页 Prompt 描述建筑风格。

文字与动作同步：通过简单提示词，将文字和图形直接连接到视频动作。

价格也很有竞争力：每秒视频输出成本 0.10 美元，跟 Veo 3.1 Fast 持平。

定位方面，同为轻量版视频生成模型，Omni Flash 更强调 Gemini 世界知识，生态方面也是全面朝 Gemini 层靠拢的。

不过谷歌也挺坦诚，主动列了一堆现阶段局限：

1、目前只支持 10 秒视频生成，后续会支持更长；

2、暂不支持音频参考上传和场景扩展；

3、API 支持最长 3 秒的视频作为参考素材，但目前模型还无法正确处理这类输入；

4、场景切换和运镜时的人物一致性仍有局限。

Nano Banana 2 Lite

Nano Banana 2 Lite（又名 gemini-3.1-flash-lite-image），专为高速处理而设计。

经过针对性优化，它瞄准的是那些对延迟极度敏感、需要短时间内批量处理大量图像的实时应用场景——比如电商素材批量生成、广告创意快速迭代、自动化内容流水线。

两大核心卖点——

光速：出图延迟约 4 秒，是 Nano Banana 2 的五分之一（后者约 20 秒）。

白菜价：一张 1K 图片仅需约 0.034 美元，是 Nano Banana 2 的一半，Nano Banana Pro 的四分之一。

速度砍了，价格砍了，但生图和图像编辑能力并没有明显缩水。Nano Banana 2 Lite 依然保持了出色的文字渲染效果，在 benchmark 上和 Grok 等模型处于同一水平线。

因此谷歌的建议是：如果你还在贪便宜用初代 Nano Banana，赶紧换。Lite 版在各项关键指标上已经全方位碾压了。

双剑合璧

等等，先别走。

本以为这只是两款并行的模型发布，没想到谷歌表示：还有新花样。

真正的神奇之处，在于将这些模型串联起来使用。

众所周知，AIGC 创作需要反复迭代，素材管理相当麻烦。

如今，借助这两个模型，终于不用再反复上传文件了，图像生成与视频创作无缝衔接。

具体来说，可以先用 Nano Banana 2 Lite 高速出图，再把生成的图像作为参考素材喂给 Gemini Omni Flash，一键转化为视频。

为了展示这套 1+1>2 的魔法 Workflow，谷歌甚至专门做了 3 个 Demo APP：

1、Anywhere

自拍一张或上传照片，NB2 Lite 瞬间把你 P 到几十个地标景点里。

接着点一下图片，Omni Flash 把静态景点变成动态短片。

赛博旅游，这下也端到端了。

2、Space Lift

这有点吓人，感觉再和 Genie 世界模型结合一下，未来怕是要威胁到不少传统装修方案 SaaS 公司。

上传一张房间照片，NB2 Lite 先出各种装修风格方案。找到喜欢的，点视频按钮，Omni 能直接给你一段电影级空间漫游。

3、Omni product studio

跨境电商的福音来了。

给产品拍张白底图，NB2 Lite 出各种场景化商品图，Omni Flash 再把静态图变成电商短视频。

从「产品」到「广告素材」，全链路自动跑完。

所以，多模态到底有什么用？

这个问题谷歌肯定被问了无数次。

尤其在 2026 年，Coding 几乎等同于模型智商的代名词。每家都在 Coding 上往死里卷。

死磕多模态，图什么？

AGI 叙事那一套就不说了，短期来看的话，谷歌这套多模态模型确实能赋能旗下不少产品。

AGI 叙事那一套就不展开了。短期来看，谷歌这套多模态模型确实能赋能旗下不少产品—— Stitch 是一个，Pixel 内置的 P 图是一个，NotebookLM 的横空出世也蛮惊艳。

这次发的两个新模型，则让人看到了多模态在垂直场景落地的更多潜力。电商、装修、短视频……这些业务的需求是真的，钱也是真的。

加上有安卓生态加持，基本不用太担心商业化的问题。

Coding 谷歌暂时追不上，但多模态这张牌桌，谷歌可能是唯一能组齐一套牌的玩家。

不过……

Gemni 3.5 Pro 到底啥时候来啊！！！

参考链接：

[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

希望掌握最新 AI 资讯，欢迎加入量子位「每日 AI 交流群」

这里有大厂做模型的、有创业公司跑落地的、有媒体追热点的，也有 VC 看项目的。

添加小助手【qbitbot13】，备注「姓名 - 公司 - 职位」，审核通过后入群。

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签