Sora 2之后，谷歌AI视频大杀器来了！像Nano Banana一样编辑视频，附一手实测

智东西

作者 | 陈骏达

编辑 | 李水青

智东西 10 月 16 日报道，今天，谷歌宣布推出全新的 Veo 3.1 视频生成模型，新版本提升了画面真实感与叙事控制能力，同时具备更强大的提示词理解力和音画同步生成能力。

依托 Veo 3.1 的能力，谷歌同步升级了旗下 AI 影视创作平台 Flow。此次更新最大的变化，是在多项核心功能中首次引入了 AI 生成音频，实现 " 声画合一 " 的创作体验。

在 Flow 的素材生视频（Ingredients to Video）功能里，创作者可以上传多张参考图像，系统自动生成包含指定角色与场景风格的完整视频。首尾帧（Frames to Video）功能可根据用户上传的画面，生成自然衔接的过渡镜头。视频延展（Extend）则可以从已有片段延展出新的镜头，使短片可衔接成长视频，持续一分钟或更长时间。

音频生成系统会自动根据画面内容生成环境音、动作声及氛围配乐，让作品更加沉浸和具象。

不过，在生成视频后，创作者往往有进一步编辑、修改画面内容的需求。为此，Flow 新增了多项编辑工具，让创作者能更精准地掌控画面。

现在，创作者可向现有视频中插入新元素（如人物、动物或道具），AI 将自动调整光影与景深，使其自然融入场景。Flow 中还即将上线一键移除功能，可去除不需要的对象或人物，系统自动重建背景，实现 " 无痕修复 "。

Veo 3.1 现已通过 Flow、Gemini API、Vertex AI 以及 Gemini 应用向开发者、企业与创作者全面开放，可免费试用。在 Flow 中，谷歌为买免费用户每月提供了 100 个 AI 点数，大约可用于 5 条视频的生成。

体验链接：

https://labs.google/fx/zh/tools/flow

智东西第一时间体验了 Veo 3.1 的生成效果。可以看到，Veo 3.1 提供两个版本，分别为 Veo 3.1-Fast（快速版）与 Veo 3.1-Quality（高质量）。实测中，快速生成大约需要 30 秒 -1 分钟。

Veo 3.1 能够准确地根据提示词，还原涉及复杂光影的画面，表现出良好的光影层次与自然氛围。画面整体偏暖且柔和，符合清晨光线的真实色温。小溪的水流模拟平滑，反光细节恰到好处。其配音也符合画面内容与提示词要求。

不过，在 " 地狱级难度 " 的体操视频生成上，Veo 3.1 彻底翻车了，输出的画面完全不符合人体规律，出现了明显的扭曲。

我们也尝试了素材生视频的功能。在上传咖啡杯、桌子和人像后，Veo 3.1 可以参考提示词和素材，生成用户所需的广告短片。Veo 3.1 对广告画面和广告词的呈现符合提示词中定义的调性，还赋予了广告词一定的旋律。

我们上传了 OpenAI CEO Sam Altman 的照片，但生成的画面中人物的年龄和外貌与他差异较大。这可能与 Flow 对名人肖像权的保护机制有关：在上传部分图像时，系统会提示不支持使用名人肖像。

结语：技术进步可喜，但仍需谨慎应用

从月初的 Sora 2 到今天的 Veo 3.1，视频生成技术在短短几周内取得了显著进展。不过，与 Veo 2 到 Veo 3 的飞跃相比，Veo 3 到 Veo 3.1 的提升并没有那么显著。

总体而言，Veo 3.1 的发布为 AI 视频创作提供了更强大的工具，但在实际应用中，创作者可能仍需对其生成的画面进行调整，以克服当前的局限，实现更高质量的作品。

宙世代

一起剪

相关标签