量子位 05-26
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

几乎让大模型全军覆没的新难题——看时钟,被国产 AI 给拿下了。

要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。

但现在,国产 AI 却可以直接开视频,实时报准时间!

可以看到,这个国产 AI 先是准确地报出了"4 点 14 分 ",而在等了一分钟后,它也是可以再次准确报时"4 点 15 分 "

那么这到底是何许 AI 也?

不卖关子,它就是豆包发布的新功能——视频通话

主打一个让 AI边看边聊天

而且啊,它还是接入了联网搜索的功能,所以回答的准确性和时效性这块也是拿捏到位了。

例如我们对着微博热搜的话题提个问题:

这个热搜第一的是什么新闻呀?

可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。

不得不说,这种跟 AI 的互动,不论是趣味性还是可靠性,都大大地增强了。

除此之外,这次的新功能还增加了" 字幕 "的选项,点击之后就可以看到之前对话的具体内容啦 ~

既然这个功能如此有趣,那我们必须安排一波深度实测。

来,走起 ~

跟豆包一块看《甄嬛传》

我们先来简单介绍一下视频通话的操作方式。

打开豆包 App 之后,依次点击" 对话 ""+ 号 "" 打电话 "" 开启视频通话 "即可:

我们的第一个实测,就是看看豆包能不能成为一个看剧搭子,能跟你边看视频边聊剧情。

有请《甄嬛传》

豆包在看视频的瞬间,立马辨别出这是《甄嬛传》,并且分析出了这个名场面:

祺贵人就是想借着皇后的手扳倒甄嬛呢。

不仅如此,它还是个有态度的 AI,超级不看好祺贵人这个角色:

她太心急又没脑子,最后肯定不会得逞的……根本不是甄嬛的对手。

整体来看,豆包称得上是个合格的看剧搭子了。

接下来,我们再来看看豆包视频通话在生活场景中能不能帮上忙。

例如我们给它看几个食材,然后提问:

拿这些食材我能做什么菜啊?

豆包不仅秒识别出食材,还把炒菜的步骤、调味品等特别详细地讲解了一番。

以后要是遇到不会做的菜,是可以用视频通话的方式问问豆包了。

类似的,我们让它再看看一道物理题

帮我看下第 4 题怎么做?

豆包准确地识别出题目,然后立马开始作答,把整个题目的求解过程详尽地说了出来,最后给出了正确答案:A。

不仅是物理题,现在直接让豆包看论文、代码,它也能帮你答疑解惑哦 ~

一番实测下来,豆包视频通话功能,整体直观的感受就是:有用好用

不只是看,还有思考

豆包视频通话功能背后,其实是豆包 · 视觉理解模型在发力。

豆包・视觉理解模型拥有非常强的内容识别能力,它就像一个敏锐的 " 眼睛 ",能够精准识别图像中的各种要素。

从基本的物体类别、形状、纹理,到物体之间的关系、空间布局以及场景的整体含义,甚至背后的文化知识,都能被其敏锐捕捉。

例如,它不仅可以轻松识别现实中的常见物品,还能根据光影、轮廓、位置等特征,准确识别出小动物的影子并判断出这是一只猫。

再如,当用户在清晨跑步时,看到光线从树林间洒出来,随手拍张照片询问豆包大模型,它能迅速识别出这是丁达尔效应,并详细科普其原理。

这种强大的内容识别能力,让 AI 能够更好地理解现实世界的视觉信息,为后续的理解和推理奠定了坚实基础。

理解推理能力是豆包・视觉理解模型的又一核心优势。

它不仅能识别图文信息,还能进行复杂的逻辑计算,在多个领域展现出了强大的解决问题的能力。

在教育场景中,拍下一道需要进行微积分运算的数学题,模型能很好地理解图片问题,并根据提示词进行对应的推理计算,给出清晰的答题思路,帮助学生更好地理解和解决数学难题。

除了识别与理解推理能力,豆包・视觉理解模型还拥有非常细腻的视觉描述和创作能力

这也就不难理解为什么豆包视频通话能做到又快又准又好。

总而言之,AI 和人类交互的方式变得越来越有趣了。

参考链接:

https://arxiv.org/pdf/2502.05092

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 甄嬛传 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论