被顶会 ICCV 2025 以 554 高分接收的视频理解框架来了!
视频包含的信息远比图像复杂,现有的 Video-LLM 常靠下采样或 Token 聚合来 " 挤 " 进语言模型,难免会丢细节并造成语义纠缠(entanglement)。

于是,北大和 UCSD 团队提出VideoOrion——

直接把前景里显著的时空动态编码成 Object Tokens 并与 Context Tokens 并行喂给 LLM,搭建出一个高效、可解释、具指代能力的视频理解框架。
将 Object Dynamics 显式提炼成离散的 Token,既可压缩数据量,又让 LLM 的对齐更自然。
实验显示,它在 MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA 等上整体领先,并自然演化出视频指代问答能力。

核心方法:双分支编码 + 用 " 检–分–跟 " 三步组成物体动态 tokenizer
传统视频 Token 多是按空间栅格或特征聚合得到,语义容易纠缠。
VideoOrion 把对象及其跨帧演化当作一级语义单位,使 LLM 在推理时可以沿对象维度整合细节,既提升细粒度问答,也为指代等需要 " 锁定实例 " 的任务提供天然接口。
在以下案例中:相比仅场景级描述,模型能说清 " 红色三轮滑板车 + 拖地组件 " 的细节或 " 黑色泳装 + 跳板后空翻 " 的动作要素。

据了解,VideoOrion 采用双分支并行编码:
Context Tokens:用 CLIP(VideoOrion)/SigLIP(VideoOrion+)编码采样帧,经 STC Connector 投影为上下文 Token(如每帧数百个),主要承载背景 / 场景等泛化信息;
Object Tokens:通过检测—分割—跟踪(detect – segment – track)的 pipeline,在以 GroundingDINO(通用模式)在关键帧产生对象候选框之后用 SAM 将候选框细化为对象掩码,确保边界与形状信息;再用 XMem 跨帧跟踪对象掩码,得到随时间演化的掩码序列;最后对掩码池化后的特征做投影(线性 /MLP 即可),形成紧凑的 Object Token(数量上限可控,语义 disentangle)。
两类 Token 将被一起输入 LLM 融合推理。

因为视频里前景会进出画面、场景突变,研究另提出按前景物体出现变化自适应切片以稳健检测与关联,避免均匀切段带来的跨段错配。
在对象流水线的替换实验中(提案器 / 分段策略 / 跟踪器),无论用 RAM++、Mask2Former 做提案,还是改为均匀 / 不切分,或以 SAM2 替代 XMem,整体都稳定优于仅视频分支,最佳组合为 RAM++ 分段 + GroundingDINO 提案 + XMem 跟踪。
实验与结果:细节理解与指代能力双提升
VideoOrion(7B)在MVBench / EgoSchema / Perception-Test / VideoMME / ActivityNet-QA上,全面超越同 backbone 的 VideoLLaMA2/2.1。
具体相对涨幅分别为 +10.1%、+14.6%、+15.6%、+8.7%、+7.8%(VideoOrion+ 亦有相近或更高增幅),体现了 Object Token 带来的细粒度语义增益。
进一步看表格数值:在 7B LLM 设置下,VideoOrion 在 MVBench/EgoSchema/Perception-Test/VideoMME(w/o/w subs)/ActivityNet-QA(Acc/Score)达到 63.5 / 65.1 / 65.2 / 54.6 – 55.3 / 57.7 – 3.7,相对多款开源 / 闭源同规模模型具有明显优势。

得益于显式 Object Token,VideoOrion 天然支持视频指代——
在提示模板中把目标对象对应的 Token 填入 <o> 即可完成 " 指这个物体在做什么 " 的问答。
团队在VideoRef45K上对比 Artemis、Merlin 等方法,零样本即有效,经小规模指代数据微调后(3 epoch)多项指标(BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE)全面领先,验证 Object Token 对指代理解的直接助益。

消融与分析:Object Token 的 " 必要与适度 "
1、有无对象分支:在等数据量下,把对象分支去掉的基础 VideoLLaMA2 模型在各基准上都落后。
2、对象分支预训练是否重要:对象分支做预训练整体更优,说明 Object 像视觉 Token 一样,需要先学基本语义再对齐文本。
3、Object Token 数量:模型在达到最多 64 个 Object Token 往往最稳,过少信息不足、过多反而分散注意。
4、仅对象 or 仅视频:只用 Object Token 会损失背景与全局线索,性能低于双分支;但在某些偏对象细节的任务上,与仅视频分支相当,显示 Object Token 的关键信息密度。
5、流水线替换:RAM++ 自适应分段优于均匀 / 不分段;XMem 跟踪略优于 SAM2;不同提案 / 分段 / 跟踪组合均显著好于视频 -only。
不过,团队也提到这项研究仍存在一定局限性:
额外计算与误检风险:引入专用视觉模型(检测 / 分割 / 跟踪)带来约 38.5% 的时延开销,且低质视频可能导致掩码不准。双分支在一定程度可缓解,但如何降低流水线成本、提升鲁棒性仍待工程优化。
分支对齐与协同:当前仍依赖视频分支提供上下文,对象—场景融合的最优机制与对齐策略是下一步重点。
至此小结一下,VideoOrion 把 " 对象动态 " 当作视频语义的基本 Token,在保证紧凑与可解释的同时,提高了对细节、交互与指代的把握能力。
团队表示,它不是替代视频特征,而是对象—场景双视角的结构化重写——一边看全局,一边抓关键。
这个范式或将影响后续的视频问答、检索、机器人感知与视频创作等多模态应用。
VideoOrion 论文链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Feng_VideoOrion_Tokenizing_Object_Dynamics_in_Videos_ICCV_2025_paper.pdf
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
快来量子位 MEET2026 智能未来大会,与我们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已确认出席,RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享,还有更多嘉宾即将揭晓 了解详情
12 月 10 日
北京金茂万丽酒店
,期待与你共论 AI 行业破局之道
点亮星标
科技前沿进展每日见


