量子位 3小时前
实测Gemini图片转视频新功能,终于蹲到经典梗图后续了(doge)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Gemini 也接入图片转视频功能了!还是带声音那种!

官方给出来的示例是开盒子出现各种东西,音效还挺丰富的。

不得不说我看到最后那个真的没忍住笑……

看起来挺有意思,不过我有点想问:

盒子里装什么都可以吗?

不是盒子可以吗?

这个音效是怎么决定的?

我还能用它做点啥?

秉承着严谨踏实的求真精神(咳咳),咱今天就要来实测一下这个新功能,看看它到底……好不好玩。

耶!惊喜盒子!

不得不说开盒确实是一个很能体现效果的尝试,毕竟你永远也不知道盒子里是个什么状态。

(你说是吧,薛定谔)

既然 Gemini 官方把它用来示例的指令都给出来了,咱不用白不用,找个盒子看看有啥不同。

我从那些指令里挑了几个,顺便试试看,是不是什么盒子都行(宝箱怪哦耶)。

打开盒子,揭示一个仓鼠在小小的厨房里做饭

礼盒也是盒,其实我主要想看看 Gemini 能不能把蝴蝶结给解开。

结果它非常简单粗暴地直接拿下来了啊喂!

不过好歹它还知道拿下来,而且仓鼠很可爱,嗯,勉强原谅吧。

生成的时间大概一分钟吧,挺快的。

生成速度:★★★★★

展现效果:★★☆☆☆

有趣程度:★★★☆☆

以上是咱的纯主观评分啊,后面出现的评分也是,不代表任何官方意见哈(叠甲叠甲)。

打开盒子,揭示一个繁忙的小城市,人们行走,汽车行驶,房子里灯光亮起

行李箱为什么不能算盒子?

可能是它判断盒子花费了一点时间,这次要比之前慢一点,不过速度也还不错。

效果嘛,这两条莫名搞笑的塑料手臂咱就先不说了,忽然变化的行李箱方向咱也不说了(那你说啥)。

至少逻辑上是没问题的,好歹它知道把行李箱放平呢!

已经出乎我的意料了(咋要求这么低)。

生成速度:★★★★☆

展现效果:★★★☆☆

有趣程度:★★☆☆☆

打开盒子,发现盒子里正在举行一场迷你现场摇滚音乐会,粉丝们聚集在一起

众所周知,宝箱里面可能有任何东西,这就是宝箱的吸引力啊。

其实我没有想到它会以这种方式配音,在提示词非常少的情况下能够输出这样的内容,我觉得已经很不错了。

它确实塑料(指人物质感),无厘头(指忽然出现的舞台),还有咔哒一下穿模的锁,但它快啊!

而且就配音而言我给满分!还要什么自行车。

生成速度:★★★★★

展现效果:★★★☆☆

有趣程度:★★★★★

打开盒子,发现里面有一部闪亮的金属电梯,电梯在盒子里向上滑动,然后我们听到它发出叮咚声,门打开了

我让豆包帮我生成了一个 2D 风格的、像儿童画一样的卡通盒子,然后把它丢给 Gemini。

并且这次的提示词带上了声音(叮咚声),电梯也是 " 闪亮的金属电梯 "。

说实话我就是在为难 Gemini,但是它的回答,怎么说,可圈可点吧。

值得表扬的是它的速度也就一分钟,整体风格也还算统一,电梯确实也是金属电梯;

但是期待的 " 叮咚 " 声并没有出现。

生成速度:★★★★★

展现效果:★★★★☆

有趣程度:★★★☆☆

更有想象力一点!

咳咳,开盒子开多了就没意思了,让我想想它还能做啥。

比如给经典梗图加个带音效的后续?

咱的提示词是这样的:

穿蓝色格子衫的男性对穿红色衣服的女性吹口哨,穿蓝色衣服的女性生气地甩开了他的手

简直不要太合情合理!我看见这张图想的就是这样的场景啊!

结果 Gemini 给了我这样的内容。

不是?你读图片了吗??就直接视频生成啊???

除了背景还有什么是符合的我问你??啊???

我就不信了,我要详细地给一个指令看看这个 Gemini 咋执行的。

顺手拍了一张图,画面主体非常明确啊,就是一个青蛙玩偶和一个水杯。

青蛙玩偶抱起面前的水杯喝水,发出吨吨吨的喝水声

然后看看它给我输出了什么:

怎么说呢,可以看到它有一套自己的逻辑,发现这个青蛙的胳膊有点短,就凭空变出了一只手给它喂水。

喝水的音效不错,但不是我想要的吨吨吨,是吸溜吸溜。

而且除了画面主体之外其它的部分没怎么变化,这点很好。

也就是说,其实它是知道要基于原图进行发挥的,可能花心男友的那个例子只是一小部分呢。

所以我又找了点梗图:

黑猫把鲨鱼一口咬住,鲨鱼大叫,猫和鲨鱼一起落入水中

结果确实像做梦一样。

(声明:本视频没有任何动物受到伤害)

再来一个经典款:

画面右边的男性手臂上下摆动,画面左边走进一个和他一模一样的人,调整了一下自己的衣领,背景响起欢呼声

结果……很可惜,失败了,把提示词更换成下面这个,依然无法输出。

男性从右边走到左边说:" 对,是我。"

我好像发现了:对于具体的真人形象,Gemini 似乎有所限制。也算是对画面主角的一种保护,合情合理,前面花心男友的案例也可以解释了。

如果脑洞再大一点,更无中生有一点呢?

这是我们的图标,嘿嘿,让我自由发挥一段……

一个恢弘大气、富有科技感的电影开场,有火箭和超现实的智能机器人,随着镜头缓缓上移,看见了像月亮一样的量子位图标(图片即量子位图标)

提示词倒是包含了很多要素,火箭啊,机器人啊,科技感,像月亮什么的。

然后它给了我这样的结果:

这个时候咋就知道开头要用咱给的图了呢!!?

咱想要的恢弘大气的电影开场一样的华丽登场啊…… . 虽然也像月亮吧,但是这不对啊……

我们的同事也提出了一些想法:

我们的 logo 这么圆,想象成一个车轮然后拉远景是个车,接着像变形金刚一样,变成了一个机器人

至于这个效果……它真的知道什么是变形吗?

这个变形金刚看起来像是被车子生出来的一样……我不知道能说什么了。

至于为什么咱一定要用咱自己的图标呢,因为咱要发出来的,咱怕侵权啊。

你们私底下可以自由发挥,就是图个乐子。

总结一下

总的来说呢,Gemini 这次推出的新功能其实就是接入了 Veo 3 Fast,生成的视频长度大概在 7-8 秒,生成速度大概 1-2 分钟。

Google AI Pro 会员每天有 3 次视频生成的额度,重试也占额度。

音效方面做得不错,但好像还是需要具体一点的形容,像是 " 叮咚 "" 吨吨吨 ""DokiDoki" 这样的拟声词描述就不太行。

另外,不能生成具体的真人形象内容,不能包含不良引导。

整体使用感受还不错,挺好玩的!

不过,如果想要生成更精确的内容,可能还是需要配合更详细的提示词,不然它就只好自由发挥了。

如果你们对此感兴趣的话,也可以尝试一下。

我知道大家私底下的鬼点子最多了(嘘)。

参考链接:

https://x.com/GeminiApp/status/1943325980984250509

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论