实测Gemini图片转视频新功能，终于蹲到经典梗图后续了（doge）

Gemini 也接入图片转视频功能了！还是带声音那种！

官方给出来的示例是开盒子出现各种东西，音效还挺丰富的。

不得不说我看到最后那个真的没忍住笑……

看起来挺有意思，不过我有点想问：

盒子里装什么都可以吗？

不是盒子可以吗？

这个音效是怎么决定的？

我还能用它做点啥？

秉承着严谨踏实的求真精神（咳咳），咱今天就要来实测一下这个新功能，看看它到底……好不好玩。

耶！惊喜盒子！

不得不说开盒确实是一个很能体现效果的尝试，毕竟你永远也不知道盒子里是个什么状态。

（你说是吧，薛定谔）

既然 Gemini 官方把它用来示例的指令都给出来了，咱不用白不用，找个盒子看看有啥不同。

我从那些指令里挑了几个，顺便试试看，是不是什么盒子都行（宝箱怪哦耶）。

打开盒子，揭示一个仓鼠在小小的厨房里做饭

礼盒也是盒，其实我主要想看看 Gemini 能不能把蝴蝶结给解开。

结果它非常简单粗暴地直接拿下来了啊喂！

不过好歹它还知道拿下来，而且仓鼠很可爱，嗯，勉强原谅吧。

生成的时间大概一分钟吧，挺快的。

生成速度：★★★★★

展现效果：★★☆☆☆

有趣程度：★★★☆☆

以上是咱的纯主观评分啊，后面出现的评分也是，不代表任何官方意见哈（叠甲叠甲）。

打开盒子，揭示一个繁忙的小城市，人们行走，汽车行驶，房子里灯光亮起

行李箱为什么不能算盒子？

可能是它判断盒子花费了一点时间，这次要比之前慢一点，不过速度也还不错。

效果嘛，这两条莫名搞笑的塑料手臂咱就先不说了，忽然变化的行李箱方向咱也不说了（那你说啥）。

至少逻辑上是没问题的，好歹它知道把行李箱放平呢！

已经出乎我的意料了（咋要求这么低）。

生成速度：★★★★☆

展现效果：★★★☆☆

有趣程度：★★☆☆☆

打开盒子，发现盒子里正在举行一场迷你现场摇滚音乐会，粉丝们聚集在一起

众所周知，宝箱里面可能有任何东西，这就是宝箱的吸引力啊。

其实我没有想到它会以这种方式配音，在提示词非常少的情况下能够输出这样的内容，我觉得已经很不错了。

它确实塑料（指人物质感），无厘头（指忽然出现的舞台），还有咔哒一下穿模的锁，但它快啊！

而且就配音而言我给满分！还要什么自行车。

生成速度：★★★★★

展现效果：★★★☆☆

有趣程度：★★★★★

打开盒子，发现里面有一部闪亮的金属电梯，电梯在盒子里向上滑动，然后我们听到它发出叮咚声，门打开了

我让豆包帮我生成了一个 2D 风格的、像儿童画一样的卡通盒子，然后把它丢给 Gemini。

并且这次的提示词带上了声音（叮咚声），电梯也是 " 闪亮的金属电梯 "。

说实话我就是在为难 Gemini，但是它的回答，怎么说，可圈可点吧。

值得表扬的是它的速度也就一分钟，整体风格也还算统一，电梯确实也是金属电梯；

但是期待的 " 叮咚 " 声并没有出现。

生成速度：★★★★★

展现效果：★★★★☆

有趣程度：★★★☆☆

更有想象力一点！

咳咳，开盒子开多了就没意思了，让我想想它还能做啥。

比如给经典梗图加个带音效的后续？

咱的提示词是这样的：

穿蓝色格子衫的男性对穿红色衣服的女性吹口哨，穿蓝色衣服的女性生气地甩开了他的手

简直不要太合情合理！我看见这张图想的就是这样的场景啊！

结果 Gemini 给了我这样的内容。

不是？你读图片了吗？？就直接视频生成啊？？？

除了背景还有什么是符合的我问你？？啊？？？

我就不信了，我要详细地给一个指令看看这个 Gemini 咋执行的。

顺手拍了一张图，画面主体非常明确啊，就是一个青蛙玩偶和一个水杯。

青蛙玩偶抱起面前的水杯喝水，发出吨吨吨的喝水声

然后看看它给我输出了什么：

怎么说呢，可以看到它有一套自己的逻辑，发现这个青蛙的胳膊有点短，就凭空变出了一只手给它喂水。

喝水的音效不错，但不是我想要的吨吨吨，是吸溜吸溜。

而且除了画面主体之外其它的部分没怎么变化，这点很好。

也就是说，其实它是知道要基于原图进行发挥的，可能花心男友的那个例子只是一小部分呢。

所以我又找了点梗图：

黑猫把鲨鱼一口咬住，鲨鱼大叫，猫和鲨鱼一起落入水中

结果确实像做梦一样。

（声明：本视频没有任何动物受到伤害）

再来一个经典款：

画面右边的男性手臂上下摆动，画面左边走进一个和他一模一样的人，调整了一下自己的衣领，背景响起欢呼声

结果……很可惜，失败了，把提示词更换成下面这个，依然无法输出。

男性从右边走到左边说：" 对，是我。"

我好像发现了：对于具体的真人形象，Gemini 似乎有所限制。也算是对画面主角的一种保护，合情合理，前面花心男友的案例也可以解释了。

如果脑洞再大一点，更无中生有一点呢？

这是我们的图标，嘿嘿，让我自由发挥一段……

一个恢弘大气、富有科技感的电影开场，有火箭和超现实的智能机器人，随着镜头缓缓上移，看见了像月亮一样的量子位图标（图片即量子位图标）

提示词倒是包含了很多要素，火箭啊，机器人啊，科技感，像月亮什么的。

然后它给了我这样的结果：

这个时候咋就知道开头要用咱给的图了呢！！？

咱想要的恢弘大气的电影开场一样的华丽登场啊…… . 虽然也像月亮吧，但是这不对啊……

我们的同事也提出了一些想法：

我们的 logo 这么圆，想象成一个车轮然后拉远景是个车，接着像变形金刚一样，变成了一个机器人

至于这个效果……它真的知道什么是变形吗？

这个变形金刚看起来像是被车子生出来的一样……我不知道能说什么了。

至于为什么咱一定要用咱自己的图标呢，因为咱要发出来的，咱怕侵权啊。

你们私底下可以自由发挥，就是图个乐子。

总结一下

总的来说呢，Gemini 这次推出的新功能其实就是接入了 Veo 3 Fast，生成的视频长度大概在 7-8 秒，生成速度大概 1-2 分钟。

Google AI Pro 会员每天有 3 次视频生成的额度，重试也占额度。

音效方面做得不错，但好像还是需要具体一点的形容，像是 " 叮咚 "" 吨吨吨 ""DokiDoki" 这样的拟声词描述就不太行。

另外，不能生成具体的真人形象内容，不能包含不良引导。

整体使用感受还不错，挺好玩的！

不过，如果想要生成更精确的内容，可能还是需要配合更详细的提示词，不然它就只好自由发挥了。

如果你们对此感兴趣的话，也可以尝试一下。

我知道大家私底下的鬼点子最多了（嘘）。

参考链接：

https://x.com/GeminiApp/status/1943325980984250509

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签