Gemini 也接入图片转视频功能了!还是带声音那种!
官方给出来的示例是开盒子出现各种东西,音效还挺丰富的。
不得不说我看到最后那个真的没忍住笑……
看起来挺有意思,不过我有点想问:
盒子里装什么都可以吗?
不是盒子可以吗?
这个音效是怎么决定的?
我还能用它做点啥?
秉承着严谨踏实的求真精神(咳咳),咱今天就要来实测一下这个新功能,看看它到底……好不好玩。
耶!惊喜盒子!
不得不说开盒确实是一个很能体现效果的尝试,毕竟你永远也不知道盒子里是个什么状态。
(你说是吧,薛定谔)
既然 Gemini 官方把它用来示例的指令都给出来了,咱不用白不用,找个盒子看看有啥不同。
我从那些指令里挑了几个,顺便试试看,是不是什么盒子都行(宝箱怪哦耶)。
打开盒子,揭示一个仓鼠在小小的厨房里做饭
礼盒也是盒,其实我主要想看看 Gemini 能不能把蝴蝶结给解开。
结果它非常简单粗暴地直接拿下来了啊喂!
不过好歹它还知道拿下来,而且仓鼠很可爱,嗯,勉强原谅吧。
生成的时间大概一分钟吧,挺快的。
生成速度:★★★★★
展现效果:★★☆☆☆
有趣程度:★★★☆☆
以上是咱的纯主观评分啊,后面出现的评分也是,不代表任何官方意见哈(叠甲叠甲)。
打开盒子,揭示一个繁忙的小城市,人们行走,汽车行驶,房子里灯光亮起
行李箱为什么不能算盒子?
可能是它判断盒子花费了一点时间,这次要比之前慢一点,不过速度也还不错。
效果嘛,这两条莫名搞笑的塑料手臂咱就先不说了,忽然变化的行李箱方向咱也不说了(那你说啥)。
至少逻辑上是没问题的,好歹它知道把行李箱放平呢!
已经出乎我的意料了(咋要求这么低)。
生成速度:★★★★☆
展现效果:★★★☆☆
有趣程度:★★☆☆☆
打开盒子,发现盒子里正在举行一场迷你现场摇滚音乐会,粉丝们聚集在一起
众所周知,宝箱里面可能有任何东西,这就是宝箱的吸引力啊。
其实我没有想到它会以这种方式配音,在提示词非常少的情况下能够输出这样的内容,我觉得已经很不错了。
它确实塑料(指人物质感),无厘头(指忽然出现的舞台),还有咔哒一下穿模的锁,但它快啊!
而且就配音而言我给满分!还要什么自行车。
生成速度:★★★★★
展现效果:★★★☆☆
有趣程度:★★★★★
打开盒子,发现里面有一部闪亮的金属电梯,电梯在盒子里向上滑动,然后我们听到它发出叮咚声,门打开了
我让豆包帮我生成了一个 2D 风格的、像儿童画一样的卡通盒子,然后把它丢给 Gemini。
并且这次的提示词带上了声音(叮咚声),电梯也是 " 闪亮的金属电梯 "。
说实话我就是在为难 Gemini,但是它的回答,怎么说,可圈可点吧。
值得表扬的是它的速度也就一分钟,整体风格也还算统一,电梯确实也是金属电梯;
但是期待的 " 叮咚 " 声并没有出现。
生成速度:★★★★★
展现效果:★★★★☆
有趣程度:★★★☆☆
更有想象力一点!
咳咳,开盒子开多了就没意思了,让我想想它还能做啥。
比如给经典梗图加个带音效的后续?
咱的提示词是这样的:
穿蓝色格子衫的男性对穿红色衣服的女性吹口哨,穿蓝色衣服的女性生气地甩开了他的手
简直不要太合情合理!我看见这张图想的就是这样的场景啊!
结果 Gemini 给了我这样的内容。
不是?你读图片了吗??就直接视频生成啊???
除了背景还有什么是符合的我问你??啊???
我就不信了,我要详细地给一个指令看看这个 Gemini 咋执行的。
顺手拍了一张图,画面主体非常明确啊,就是一个青蛙玩偶和一个水杯。
青蛙玩偶抱起面前的水杯喝水,发出吨吨吨的喝水声
然后看看它给我输出了什么:
怎么说呢,可以看到它有一套自己的逻辑,发现这个青蛙的胳膊有点短,就凭空变出了一只手给它喂水。
喝水的音效不错,但不是我想要的吨吨吨,是吸溜吸溜。
而且除了画面主体之外其它的部分没怎么变化,这点很好。
也就是说,其实它是知道要基于原图进行发挥的,可能花心男友的那个例子只是一小部分呢。
所以我又找了点梗图:
黑猫把鲨鱼一口咬住,鲨鱼大叫,猫和鲨鱼一起落入水中
结果确实像做梦一样。
(声明:本视频没有任何动物受到伤害)
再来一个经典款:
画面右边的男性手臂上下摆动,画面左边走进一个和他一模一样的人,调整了一下自己的衣领,背景响起欢呼声
结果……很可惜,失败了,把提示词更换成下面这个,依然无法输出。
男性从右边走到左边说:" 对,是我。"
我好像发现了:对于具体的真人形象,Gemini 似乎有所限制。也算是对画面主角的一种保护,合情合理,前面花心男友的案例也可以解释了。
如果脑洞再大一点,更无中生有一点呢?
这是我们的图标,嘿嘿,让我自由发挥一段……
一个恢弘大气、富有科技感的电影开场,有火箭和超现实的智能机器人,随着镜头缓缓上移,看见了像月亮一样的量子位图标(图片即量子位图标)
提示词倒是包含了很多要素,火箭啊,机器人啊,科技感,像月亮什么的。
然后它给了我这样的结果:
这个时候咋就知道开头要用咱给的图了呢!!?
咱想要的恢弘大气的电影开场一样的华丽登场啊…… . 虽然也像月亮吧,但是这不对啊……
我们的同事也提出了一些想法:
我们的 logo 这么圆,想象成一个车轮然后拉远景是个车,接着像变形金刚一样,变成了一个机器人
至于这个效果……它真的知道什么是变形吗?
这个变形金刚看起来像是被车子生出来的一样……我不知道能说什么了。
至于为什么咱一定要用咱自己的图标呢,因为咱要发出来的,咱怕侵权啊。
你们私底下可以自由发挥,就是图个乐子。
总结一下
总的来说呢,Gemini 这次推出的新功能其实就是接入了 Veo 3 Fast,生成的视频长度大概在 7-8 秒,生成速度大概 1-2 分钟。
Google AI Pro 会员每天有 3 次视频生成的额度,重试也占额度。
音效方面做得不错,但好像还是需要具体一点的形容,像是 " 叮咚 "" 吨吨吨 ""DokiDoki" 这样的拟声词描述就不太行。
另外,不能生成具体的真人形象内容,不能包含不良引导。
整体使用感受还不错,挺好玩的!
不过,如果想要生成更精确的内容,可能还是需要配合更详细的提示词,不然它就只好自由发挥了。
如果你们对此感兴趣的话,也可以尝试一下。
我知道大家私底下的鬼点子最多了(嘘)。
参考链接:
https://x.com/GeminiApp/status/1943325980984250509
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦