【环球网科技综合报道】近日,京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这个全栈开源的 interaction 模型和系统,获得 vLLM-Omni 的 day-0 原生支持。它让大模型从 " 一问一答 " 走向 " 边看边说 ",开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手,有望推动 AI 在物理世界发挥巨大作用。

今天很多多模态模型,重在比拼参数、知识和推理,本质上仍是 " 一问一答 ",即用户上传图片或视频,提出问题,模型再给出回答。这种方式在图文问答、视频复盘、内容分析等场景中足够好用,但当 AI 进入真实世界,模型不只要聪明,更要 " 在场 "。正在发生的真实世界,无数瞬息万变的时刻,错过就很难补救。
京东开源的 JoyAI-VL-Interaction,就是让 AI 像人一样持续 " 在场 ":边看、边记、边判断,并在关键时刻主动回应,或选择性地交接给后台 Agent。相比传统模型,JoyAI-VL-Interaction 有三重突破:
第一是主动判断,而非被动回答。传统模型通常要等用户发起问题,才开始处理当前画面,而 JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。
第二是实时响应,而非事后总结。传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。而 JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。
第三是适时智能体委托,同时保持观察和交互。JoyAI-VL-Interaction 还具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或 Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。它更像一套 " 前台实时助手 + 后台智能大脑 " 的协作系统:前台负责在场,后台负责干重活,有机会开启 AI 与人类协作的新范式。
在实时视频流中,JoyAI-VL-Interaction 每秒都会做一次判断,比如,继续观察、保持沉默,发现关键事件、主动回应,遇到复杂任务,交给后台 Agent 处理。这意味着," 什么时候说话 " 不再只靠外部规则或定时触发,而是成为模型自己学会的能力。
对实时交互来说,会说话很重要,会沉默也同样重要。一个好的 AI 助手,不应该一直打扰用户,而应该知道什么时候该出现,什么时候该安静,以及什么时候自己解决,什么时候交由 agent 解决。
很多开源模型只提供基础推理能力。开发者如果要真正用起来,还需要自己处理视频接入、语音交互、记忆模块、前后端协同等工程问题。JoyAI-VL-Interaction 开源的是完整技术栈,包括模型权重、交互数据集、训练方案和完整可部署系统,可以帮助开发者更快从模型研究走向真实场景落地。
JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块,都可以按需替换。开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。
换句话说,JoyAI-VL-Interaction 不是封闭产品,而是一套开放框架。它既可以用于研究,也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜、无障碍辅助等实时 AI 助手。
在评测中,JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。
今年以来,京东在模型基建方面取得多项重要进展。3 月,京东开源基础大模型 JoyAI-LLM Flash 的 Instruct 版本,打破了大模型参数内卷的困局;4 月,京东开源图像模型 JoyAI-Image-Edit,空间理解与编辑能力达到世界一流水平。6 月 3 日,京东又开源长视频生成模型 JoyAI-Echo,推动长视频生成 " 所想即所得 " 时代到来,标志着京东在上述领域进入全球第一梯队。
从 " 一问一答 " 到 " 边看边记边回应 ",从离线视频理解到实时流式交互,从屏幕里的 AI 到物理世界里的 AI ——此次 JoyAI-VL-Interaction 的全栈开源,是京东把 AI 从数字世界推向物理世界的又一步。
深耕零售、物流、健康、工业等实体产业二十余年,京东拥有全球领先的物理世界运营网络,覆盖仓储、配送、门店、直播、客服、售后海量真实场景,每天都在发生人、货、场的实时互动。对 AI 而言,这些不是抽象数据,而是进入物理世界的天然训练场与应用场,为京东打造 " 全球最大物理世界运营中心 " 提供坚实的保障。未来京东将持续加大研发投入,开放技术能力,推动 AI 从千行百业走进千家万户。(旺旺)


登录后才可以发布评论哦
打开小程序可以发布评论哦