只看一段 " 刀切香蕉 " 的视频,AI 要学到的远不止识别出刀和香蕉。
它还要知道:刀什么时候接触香蕉,香蕉为何断成两截,被遮挡的部分是否仍然存在,以及整个交互从不同视角看是否保持一致。
这类同时包含三维几何、时间变化和物理关系的 4D 交互数据,是具身智能、机器人学习和 VLA 训练的重要原料,却长期依赖昂贵的多机位采集系统。
上海交通大学李永露老师 RHOS 团队联合上海创智学院、中国科学技术大学和 Math Magic(数美万物)在 ECCV 2026 接收的论文中提出 HAT-4D:只输入一段真实场景中的单目视频,由多 Agent 协作完成多物体 4D 交互重建。
它不是一个完整的世界模型,更像是在给 4D 世界模型修路——把海量普通视频,转化为带有几何、动态、交互约束和长期记忆的训练资产。
△HAT-4D 聚焦遮挡记忆、复杂形变与多物体交互三类核心难题。先把视频写成一份 " 物理剧本 "
单目视频天然缺少深度信息。两个物体在画面里挨在一起,不代表它们在三维空间中真的接触;物体一旦被遮住,生成模型还可能直接 " 忘掉 " 它。
HAT-4D 首先让视觉语言模型通读视频,构建 Interaction Knowledge Graph(IKG,交互知识图谱)。
IKG 把视频拆成对象、事件和关系:场景里有哪些物体;接触、切割、分离分别发生在哪些时间段;谁在前、谁在后;物体之间需要满足非穿透、切向接触、运动耦合等约束。
于是," 刀切香蕉 " 不再只是一句文字描述,而变成一份可执行的 4D 施工图。
△IKG 将视频分解为事件段,并显式编码对象属性、交互关系和物理约束。多 Agent 接力:生成、记忆、质检、返工
拿到 IKG 后,一组专用 Agent 开始接力。
3D 生成 Agent 分别重建香蕉、刀具等对象;空间组装 Agent 根据深度、相对位置和接触关系调整六自由度位姿;4D 传播 Agent 把关键 3D 状态沿时间展开。
系统还专门设置了 Memory Bank。被杯子挡住的小球、转到背面的物体,即使暂时不可见,也会通过关键帧记忆保持身份和几何状态。
最后,4D 评估 Agent 从多视角检查物体是否穿透、变形是否合理、时间是否抖动。发现问题后,系统不是全部推倒重来,而是根据错误类型回滚到 3D 生成或 4D 传播环节局部返工。
这套流程已经形成了" 理解—生成—记忆—评估—诊断—回滚 "的多 Agent 闭环。
△HAT-4D 总体框架:多 Agent 协同完成交互理解、3D 生成与组装、记忆增强的 4D 传播及自动评估。少量人类反馈,撬动明显提升
单目 4D 重建本质上存在多解,因此 HAT-4D 保留了人在回路中的纠错接口。
用户可以在对象级重新生成错误物体,在区域级修复局部结构,也可以直接调整 Gaussian Splats 的位置、颜色和透明度。
实验中,只允许 3 次人工介入,变形分数便从 3.90 提升到 5.47,交互关系分数从 2.88 提升到 4.79;继续增加介入次数后,收益逐渐饱和。
这意味着人不需要逐帧标注,只需在少数关键状态上纠偏,就能阻止错误沿时间持续累积。
△少量人类介入即可显著改善重建质量和交互质量,随后收益逐渐趋于饱和。从一次重建,到 4D 数据飞轮
团队还构建了 MVOIK-4D 基准,包含 112 个场景、77 项任务、39 类交互和 15 类物体变形,重点覆盖遮挡记忆、复杂形变和多物体协同。
HAT-4D 在 LPIPS、交互重建和长期记忆等核心指标上取得领先表现。更关键的是,经人机协作修正的 4D 资产可以继续作为高质量伪真值,反向微调底层生成模型。
在 L4GM 微调实验中,引入更丰富的随机监督视角后,PSNR 由 21.29dB 提升至 24.22dB。
因此,HAT-4D 的意义不只在于 " 把一条视频变成 4D"。它尝试打通一条可扩展的数据生产链:真实视频进入,多 Agent 完成结构化理解和 4D 重建,人类在关键节点校正,生成数据再反哺模型。
复杂柔性形变和高速非刚体运动仍是当前难点,但一座面向 4D 世界模型的数据工厂,已经有了雏形。
△使用 HAT-4D 数据微调 L4GM 时,多样视角监督将 PSNR 提升至 24.22dB。核心实验结果表格
△MVOIK-4D 基准定量对比:HAT-4D 在 LPIPS、交互重建与长期记忆指标上表现突出。
△人工介入预算消融:3-5 次关键纠偏已带来明显收益,继续增加后趋于饱和。
△多层级精修算子消融:对象级修正贡献最大,区域级与 Gaussian 级修正提供局部补充。论文信息
RHOS 官网论文条目已上线:https://mvig-rhos.com/
论文项目主页:https://lijiaxin0111.github.io/HAT4D/
arxiv 论文:https://arxiv.org/abs/2606.28215
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
【学术投稿】请在工作日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉我们:你是谁,从哪来,投稿内容附上项目 / 主页链接,以及联系方式。
我们会 ( 尽量 ) 及时回复你 : )
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦