财联社-深度 1小时前
京东即将开源视觉语言实时交互模型 从“一问一答”走向“边看边说”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

《科创板日报》6 月 17 日讯(记者 黄心怡)《科创板日报》记者独家获悉,京东团队即将于近期开源视觉语言实时交互模型 JoyAI-VL-Interaction。

《科创板日报》记者从一份在开源社区和海外 AI 技术圈受到关注的技术报告获悉,该模型想解决的问题,不只是让模型更会 " 看视频 ",而是让模型能够通过摄像头等实时视频流持续观察现实世界,并自己判断什么时候该回应、什么时候该保持沉默、以及什么时候把任务委托给后台 agent。换句话说,它试图把多模态大模型从传统的 " 一问一答 ",推进到 " 实时流式交互 "。

值得一提的是,这个方向并非京东一家在押注。上个月,海外的 Thinking Machines Lab ( TML ) 也提出了 "interaction model" 的概念,认为自主交互性应当成为模型自身的能力而被独立 scaling。两个团队几乎在同一时间走到了相同的技术方向和战略判断上,这本身就说明 " 从轮次制走向交互式 " 是一个时机已到的趋势。不同的是,TML 目前放出的是一个 research preview,而京东选择了把模型、数据、训练方法和完整系统全部开源。

今天大多数多模态模型仍然是轮次制的:用户上传图片或视频,再提出问题,模型才开始回答。但很多真实场景并不是这样发生的。比如,监控画面里突然出现火情,老人摔倒,直播中商品快速闪过,视频通话里用户状态发生变化。这些时刻一旦错过,就很难补救。模型如果只能等用户提问,往往已经慢了一步。JoyAI-VL-Interaction 的核心思路是:让模型像人一样持续 " 在场 ",边看、边记、边判断,并在关键时刻主动回应。

值得注意的是,JoyAI-VL-Interaction 并不只是一个单独模型。报告称,京东计划开源模型权重、交互数据、训练方法和完整系统。系统支持摄像头、直播流、监控流等输入,也包括语音输入输出、可视化界面、长期记忆和后台模型接口。也就是说,开发者不只是能研究模型,还可以直接搭建一个能够看视频流、做判断、主动交互的实时 AI 助手。

报告还将 JoyAI-VL-Interaction 与豆包、Gemini 的 App 内视频通话助手进行了人工评测。评测覆盖六类场景:监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆。

在 58 个案例中,JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%,对 Gemini 的总体胜率为 87.9%。其中,在监控预警场景中,对两个基线均取得 100% 胜率

这类模型适合需要 AI 持续在场的场景,例如安防监控场景,火情、摔倒、异常行为提醒,老人和小孩看护场景,电商购物、直播运营、赛事解说、以及 AI 眼镜和无障碍辅助等场景。

报告也提到,JoyAI-VL-Interaction 目前是 8B 规模模型。相比豆包、Gemini 背后的更大模型和持续的产品迭代,它在通用知识、长尾场景、表达丰富度和稳定性上未必占优。此外,训练数据也还有继续扩展和清洗空间。评测仍处于早期阶段,还未展开大规模系统性评估。

不过,报告也将此视为一个积极信号:即便在当前的数据规模下,模型就已经展现出不错的交互能力,并观察到特定的能力涌现。这说明将交互性训进模型这条路数据效率很高,因此开源出来和社区一起探究不同的应用落地场景,以推动 interaction models 这一研究方向的发展。

过去,大模型主要比拼参数、知识和推理能力。但在真实世界里,一个 AI 助手是否有用,还取决于它能不能持续观察、判断时机,并在该说话时及时出现。如果 JoyAI-VL-Interaction 按计划开源模型、数据和系统,它可能会成为国内多模态开源领域一个值得关注的新方向:从离线视频理解,走向实时流式交互。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

京东 开源 科创板 翻译 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论