京东即将开源视觉语言实时交互模型从“一问一答”走向“边看边说”

《科创板日报》6 月 17 日讯（记者黄心怡）《科创板日报》记者独家获悉，京东团队即将于近期开源视觉语言实时交互模型 JoyAI-VL-Interaction。

《科创板日报》记者从一份在开源社区和海外 AI 技术圈受到关注的技术报告获悉，该模型想解决的问题，不只是让模型更会 " 看视频 "，而是让模型能够通过摄像头等实时视频流持续观察现实世界，并自己判断什么时候该回应、什么时候该保持沉默、以及什么时候把任务委托给后台 agent。换句话说，它试图把多模态大模型从传统的 " 一问一答 "，推进到 " 实时流式交互 "。

值得一提的是，这个方向并非京东一家在押注。上个月，海外的 Thinking Machines Lab ( TML ) 也提出了 "interaction model" 的概念，认为自主交互性应当成为模型自身的能力而被独立 scaling。两个团队几乎在同一时间走到了相同的技术方向和战略判断上，这本身就说明 " 从轮次制走向交互式 " 是一个时机已到的趋势。不同的是，TML 目前放出的是一个 research preview，而京东选择了把模型、数据、训练方法和完整系统全部开源。

今天大多数多模态模型仍然是轮次制的：用户上传图片或视频，再提出问题，模型才开始回答。但很多真实场景并不是这样发生的。比如，监控画面里突然出现火情，老人摔倒，直播中商品快速闪过，视频通话里用户状态发生变化。这些时刻一旦错过，就很难补救。模型如果只能等用户提问，往往已经慢了一步。JoyAI-VL-Interaction 的核心思路是：让模型像人一样持续 " 在场 "，边看、边记、边判断，并在关键时刻主动回应。

值得注意的是，JoyAI-VL-Interaction 并不只是一个单独模型。报告称，京东计划开源模型权重、交互数据、训练方法和完整系统。系统支持摄像头、直播流、监控流等输入，也包括语音输入输出、可视化界面、长期记忆和后台模型接口。也就是说，开发者不只是能研究模型，还可以直接搭建一个能够看视频流、做判断、主动交互的实时 AI 助手。

报告还将 JoyAI-VL-Interaction 与豆包、Gemini 的 App 内视频通话助手进行了人工评测。评测覆盖六类场景：监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆。

在 58 个案例中，JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%，对 Gemini 的总体胜率为 87.9%。其中，在监控预警场景中，对两个基线均取得 100% 胜率。

这类模型适合需要 AI 持续在场的场景，例如安防监控场景，火情、摔倒、异常行为提醒，老人和小孩看护场景，电商购物、直播运营、赛事解说、以及 AI 眼镜和无障碍辅助等场景。

报告也提到，JoyAI-VL-Interaction 目前是 8B 规模模型。相比豆包、Gemini 背后的更大模型和持续的产品迭代，它在通用知识、长尾场景、表达丰富度和稳定性上未必占优。此外，训练数据也还有继续扩展和清洗空间。评测仍处于早期阶段，还未展开大规模系统性评估。

不过，报告也将此视为一个积极信号：即便在当前的数据规模下，模型就已经展现出不错的交互能力，并观察到特定的能力涌现。这说明将交互性训进模型这条路数据效率很高，因此开源出来和社区一起探究不同的应用落地场景，以推动 interaction models 这一研究方向的发展。

过去，大模型主要比拼参数、知识和推理能力。但在真实世界里，一个 AI 助手是否有用，还取决于它能不能持续观察、判断时机，并在该说话时及时出现。如果 JoyAI-VL-Interaction 按计划开源模型、数据和系统，它可能会成为国内多模态开源领域一个值得关注的新方向：从离线视频理解，走向实时流式交互。

宙世代

一起剪

相关标签