科创板日报 02-10
业界首个!豆包新模型搅动AI视觉
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》2 月 10 日讯(编辑 宋子乔) 2 月 10 日,A 股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

消息面上,豆包发布视频生成实验模型 "VideoWorld"。据介绍,不同于 Sora、DALL-E、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,仅通过 " 视觉信息 " 即可认知世界,也就是说,VideoWorld 可通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。

目前,该项目代码与模型已开源。

现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。VideoWorld 选择去掉语言模型,实现了统一执行理解和推理任务。

怎么做到的?

豆包大模型团队称,VideoWorld 基于一种潜在动态模型(Latent Dynamics Model,LDM),可高效压缩视频帧间的变化信息,在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,显著提升知识学习效率和效果

在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

但该模型并不完美,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。这一点最直观体现在,视频中存在大量冗余信息,会大大影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。

大模型的视觉理解能力一直是 AI 前沿研究方向之一。对人类而言,与语言相比," 用眼睛看 " 是门槛更低的认知方式。正如李飞飞教授 9 年前 TED 演讲中提到 " 幼儿可以不依靠语言理解真实世界 "。

AI 视觉学习,简单来说,需要大模型理解物品 / 空间 / 场景的整体含义,并根据识别内容进行复杂的逻辑计算,根据图像信息更细腻地表述并创作。

AI 视觉学习能力提升,有望催发更多的 AI 应用。长城证券此前发布研报称,国内 AI 大模型多模态能力正持续提升,如快手可灵 AI 大模型、字节豆包 AI 大模型等视频生成的效果正在持续提升,包括精准语义理解、一致性多镜头生成、动态运镜等。受益于底层技术能力的升级,国内 AI 应用持续迭代,token 调用量持续增长,AI 应用有望从中受益。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 机器人 效果 a股 科创板
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论