硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜

北京时间 10 月 16 日，谷歌在 Gemini API 中发布了 Veo 3.1 和 Veo 3.1 Fast 付费预览版。模型一上线，就受到了行业的高度关注。毕竟，和前不久发布的 Sora 2 一样，这次 Veo 3.1 也新增了音频功能。

相较于上一代 Veo 3 来说，Veo 3.1 此次提升主要聚焦在三大方面：

第一，是 AI 生成视频从默片走向有声电影。 Veo 3.1 不但能够要求 AI 视频实现声音画面统一，还能够要求 AI 更好地理解画面内容，并给予合适的配乐。

第二，Veo 3.1 可以直接设定 AI 视频的开篇画面和结尾画面。如此一来，Veo 3.1 不但能够实现短视频和短视频之间的过渡自然，也能够进一步控制 AI 视频的首尾观感。甚至，Veo 3.1 可以实现每一个新的视频都是基于上一个视频的最后一个画面继续生成。在无限叠加的 Buff 下，谷歌用一种另类的方式实现了「AI 长视频」生成。

比如说，当你告诉 Veo 3.1，以下两张图片是 AI 视频的开篇画面和结尾画面：

来源：谷歌官网

就会生成如下视频片段：

来源：谷歌官网

第三，Veo 3.1 可以通过三张图打造一个人设。

当你给 Veo 3.1 三张图片，分别为一个女性头像、一个服装参考图以及一个场景设定时，根据提示词要求，Veo 3.1 可以直接通过三张画面设定 AI 人物形象，并且可以让该人物自然地说出目标台词。

来源：谷歌官网

此次，Veo 3.1 主打进一步优化 AI 视频在视听观感上的体验。同时，谷歌也是在 AI 视频生成片段时间较短的前提下，寻找能够实现「AI 长视频叙事」的解法。

01 亲测 Veo 3.1 三大功能，五个月谷歌往前走了「0.1 步」

目前，普通用户可在 Gemini 应用程序和 Flow 免费使用，不过使用机会有限。我们发现不少国内 AI 视频生成平台闪现秒跟。不到一天时间，Imagine.art、Fal-ai 以及 Lovart 均表示支持 Veo 3.1 模型调用。我们此次也在 Lovart 上对 Veo 3.1 进行了快速体验。

首先测试了 Veo 3.1 生成的 AI 视频是否能够在音画统一上达成一致。第一次，我们给到 Veo 3.1 的英文提示词是：「纽约街头正在下雨，突然一道闪电伴随雷声而来。」

可以看到基本上，闪电和雷声是在同一时间内出现，完成了声音画面的一致性。我们还可以更细致地发现每一辆车开过水坑时，声音会有一个从远到近，从大到小的变化程度。让我们意外的是，在 3 分钟左右的生成 AI 视频的倒计时中，Veo 3.1 整个视频的生成时间会在 1 分钟左右就完成，但生成的视频片段基本上都在 6 秒左右，与 Sora 2 可以生成 10-20 秒的时间相比，明显不占优势。

而且，我们还发现在整个画面，只有车、雨滴、和闪电是呈现动态效果，两旁的行人或者树木均是静止不动的，因此整个视频片段会出现一些违和感，让人能够一眼能看出是 AI 视频。

接下来，我们测试给 Veo 3.1 两张照片，并分别设定为第一张照片和最后一张照片后，看看 AI 视频的首尾稳定性如何。以及 Veo 3.1 能否能够通过拼接的方式，实现两段视频直接连接。

为了更好的生成效果，我们给到 Veo 3.1 的第一段提示词是：「一只顽皮的虎斑猫以流畅、连续的动作跃上办公桌。这个动作应展现从起跳到优雅落桌的完整跳跃弧线，以上两张图片分别为视频的首个画面和结束画面，确保运动过程流畅且符合物理规律。」

在视频的前半部分，呈现基本上自然。但是在小猫咪跳到电脑后面的时候，似乎变了另一只小猫出来，整个视频突然添了几分「魔法感」。并且，在视频的最后几秒，似乎有个开灯设定，将画面调整更亮。

同时，我们给出 Veo 3.1 第二段英文提示词：「跳上办公桌的虎斑猫趴下睡着了。以上两张图片分别为视频的首个画面和结束画面，确保运动过程流畅且符合物理规律。」

可以看出，Veo 3.1 给出的 AI 生成视频还是比较真实的。如果将两个视频片段连接在一起，则呈现的效果为：

可以看出，当两个视频拼接到一起之后，除了此前提到的「魔法感」比较突兀外，视频与视频之间还是保持了连贯性，并且也实现了一定程度上的场景拓展。

最后，我们测试了如何使用 Veo 3.1，通过三张图设定一个人物主角形象。

我们给出一段英文指令，大意为：「一个中景镜头，画面中的女性角色来源于人物参考图，身穿服装参考图中的衣服。她正在场景参考图中的场景里漫步，带着好奇而愉悦的表情环顾四周。环境需与提供的场景图一致。整体风格应为电影质感，拥有自然的光线和轻柔的微风。同步生成环境音效，如树叶的沙沙声和远处的鸟鸣。」

可惜的是，这一次我们发现 AI 视频中的人物明显建模感严重，服装和场景几乎都与此前给出的参考图片有明显差别，AI 感极重，该 AI 视频几乎是此次所有测试视频里面表现效果最差的。

整体看来，此次 Veo 3.1 在音画同步以及首尾画面稳定上均给出不错的 AI 效果。但在用图片设定人物形象，AI 人设方向并没有官网中介绍的效果好。

02 谷歌「暗踩」Sora2，AI 大佬们跳出来反对

「胜，大获全胜。」谷歌试图在官网昭告天下这一点。据谷歌介绍，谷歌在文生视频的总体观感、视频对齐程度以及视觉质量等方面，完胜 Sora 2 Pro、海螺 2.0、Seedance 1.0 Pro 和 Renway Gen 3 等一众视频模型。

官网还强调，在音画一致性方面，Veo 3 的「视频素材」功能在内部基准测试中，在「整体偏好」和「视觉质量」两项指标均名列前茅。

有意思的是，谷歌官网还悄悄地「暗踩」OpenAI 所发布的 Sora 2，解释在图像转视频测试中没有 Sora 2 Pro 的原因是因为 Sora 2 Pro 目前不支持人像生成。

不过我们也发现在此次的对比中，谷歌似乎模糊 Veo 3.1 和 Veo 3 的模型边界，基于所有的图片显示中都是 Veo 3，而文字表达均为 Veo 3.1，因此暂时也很难确定此次评测的模型，究竟是刚刚发布的 Veo 3.1 还是 5 个月前的 Veo 3。

尽管谷歌自我感觉甚好，但在 AI 大佬们看来，Veo 3.1 的效果似乎略逊于 Sora 2。比如说，Otherside AI 的创始人 Matt Shumer 直接在推特上表示对 Veo 3.1 感到「有些失望」，他认为 Veo 3.1 效果明显逊于 Sora 2，价格却高出不少。毕竟，目前 Sora 2 可是免费使用。

3D 数字艺术家 Travis David 则提到 Veo 3.1 并没有突破 AI 视频生成的「8 秒」定律，且用户没有办法自己选择生成什么样的音频，让人大失所望。

还有不少网友提到期待「自动化分镜」功能迟迟没有上新，在自动化程度的进展也让人感到失望。

03 和 Sora 2 Pro 卷「性价比」？Veo 3.1 瞄准 AI 视频专业化

在谷歌介绍 Veo 3.1 模型博客的最后，提到了价格与 Veo 3 相同。乍一看，我还以为谷歌此次是一次「加量不加价」的升级，但仔细研究之后发现，Veo 3.1 模型可能仍是目前市场较为昂贵的视频生成模型，仅次于 Sora 2 Pro。

除了 Veo 3.1，谷歌还推出 Veo 3.1 Fast，能够更快的生成视频，价格也更低，不含音频的版本是每秒 $0.15，加上音频生成的版本则是每秒 $0.40 美元。

而在价格表下，谷歌也为自己留出了一条后路，提到「在某些情况下，音频处理问题可能会导致视频无法生成。只有在成功生成视频后，系统才会向您收取费用。」这也能够说明一定程度上，该视频模型仍处于不稳定的状态中。

和前不久刚刚发布社交属性较强、更注重趣味感的 Sora 2 相比，Veo 3.1 明显定位在「专业化」上。因此，Veo 3.1 更强调视频的连贯性，音画的一致性以及人物的稳定性。

谷歌给出的应用场景案例也侧面印证了这一点。据介绍，GenAI 电影工作室 Promise Studios 已经开始其 MUSE 平台中使用 Veo 3.1 来增强生成 AI 视频故事性，整体生成视频要求尽可能达到导演希望的制作质量以及故事讲述感。AI 生成内容公司 Latitude 也正在其生成叙事引擎中测试 Veo 3.1，希望能够将用户创作的故事立即变为现实。

可以看到，Veo 3.1 正试图撬动专业影视制作领域，降低高质量视频创作的门槛和成本。这也意味着未来个人创作者或小团队，有机会通过叙事控制、定制化角色以及音画一致性，独立制作一系列风格统一的迷你短片或系列视频内容。

但从整体视频生成效果来看，五个月谷歌在 Veo 视频模型上往前仅走了「0.1 步」。

宙世代

一起剪

相关标签