告别百万级动捕棚！上海交大等提出HAT-4D，单目视频直出4D交互场景

只看一段 " 刀切香蕉 " 的视频，AI 要学到的远不止识别出刀和香蕉。

它还要知道：刀什么时候接触香蕉，香蕉为何断成两截，被遮挡的部分是否仍然存在，以及整个交互从不同视角看是否保持一致。

这类同时包含三维几何、时间变化和物理关系的 4D 交互数据，是具身智能、机器人学习和 VLA 训练的重要原料，却长期依赖昂贵的多机位采集系统。

上海交通大学李永露老师 RHOS 团队联合上海创智学院、中国科学技术大学和 Math Magic（数美万物）在 ECCV 2026 接收的论文中提出 HAT-4D：只输入一段真实场景中的单目视频，由多 Agent 协作完成多物体 4D 交互重建。

它不是一个完整的世界模型，更像是在给 4D 世界模型修路——把海量普通视频，转化为带有几何、动态、交互约束和长期记忆的训练资产。

△HAT-4D 聚焦遮挡记忆、复杂形变与多物体交互三类核心难题。先把视频写成一份 " 物理剧本 "

单目视频天然缺少深度信息。两个物体在画面里挨在一起，不代表它们在三维空间中真的接触；物体一旦被遮住，生成模型还可能直接 " 忘掉 " 它。

HAT-4D 首先让视觉语言模型通读视频，构建 Interaction Knowledge Graph（IKG，交互知识图谱）。

IKG 把视频拆成对象、事件和关系：场景里有哪些物体；接触、切割、分离分别发生在哪些时间段；谁在前、谁在后；物体之间需要满足非穿透、切向接触、运动耦合等约束。

于是，" 刀切香蕉 " 不再只是一句文字描述，而变成一份可执行的 4D 施工图。

△IKG 将视频分解为事件段，并显式编码对象属性、交互关系和物理约束。多 Agent 接力：生成、记忆、质检、返工

拿到 IKG 后，一组专用 Agent 开始接力。

3D 生成 Agent 分别重建香蕉、刀具等对象；空间组装 Agent 根据深度、相对位置和接触关系调整六自由度位姿；4D 传播 Agent 把关键 3D 状态沿时间展开。

系统还专门设置了 Memory Bank。被杯子挡住的小球、转到背面的物体，即使暂时不可见，也会通过关键帧记忆保持身份和几何状态。

最后，4D 评估 Agent 从多视角检查物体是否穿透、变形是否合理、时间是否抖动。发现问题后，系统不是全部推倒重来，而是根据错误类型回滚到 3D 生成或 4D 传播环节局部返工。

这套流程已经形成了" 理解—生成—记忆—评估—诊断—回滚 "的多 Agent 闭环。

△HAT-4D 总体框架：多 Agent 协同完成交互理解、3D 生成与组装、记忆增强的 4D 传播及自动评估。少量人类反馈，撬动明显提升

单目 4D 重建本质上存在多解，因此 HAT-4D 保留了人在回路中的纠错接口。

用户可以在对象级重新生成错误物体，在区域级修复局部结构，也可以直接调整 Gaussian Splats 的位置、颜色和透明度。

实验中，只允许 3 次人工介入，变形分数便从 3.90 提升到 5.47，交互关系分数从 2.88 提升到 4.79；继续增加介入次数后，收益逐渐饱和。

这意味着人不需要逐帧标注，只需在少数关键状态上纠偏，就能阻止错误沿时间持续累积。

△少量人类介入即可显著改善重建质量和交互质量，随后收益逐渐趋于饱和。从一次重建，到 4D 数据飞轮

团队还构建了 MVOIK-4D 基准，包含 112 个场景、77 项任务、39 类交互和 15 类物体变形，重点覆盖遮挡记忆、复杂形变和多物体协同。

HAT-4D 在 LPIPS、交互重建和长期记忆等核心指标上取得领先表现。更关键的是，经人机协作修正的 4D 资产可以继续作为高质量伪真值，反向微调底层生成模型。

在 L4GM 微调实验中，引入更丰富的随机监督视角后，PSNR 由 21.29dB 提升至 24.22dB。

因此，HAT-4D 的意义不只在于 " 把一条视频变成 4D"。它尝试打通一条可扩展的数据生产链：真实视频进入，多 Agent 完成结构化理解和 4D 重建，人类在关键节点校正，生成数据再反哺模型。

复杂柔性形变和高速非刚体运动仍是当前难点，但一座面向 4D 世界模型的数据工厂，已经有了雏形。

△使用 HAT-4D 数据微调 L4GM 时，多样视角监督将 PSNR 提升至 24.22dB。核心实验结果表格

△MVOIK-4D 基准定量对比：HAT-4D 在 LPIPS、交互重建与长期记忆指标上表现突出。

△人工介入预算消融：3-5 次关键纠偏已带来明显收益，继续增加后趋于饱和。

△多层级精修算子消融：对象级修正贡献最大，区域级与 Gaussian 级修正提供局部补充。论文信息

RHOS 官网论文条目已上线：https://mvig-rhos.com/

论文项目主页：https://lijiaxin0111.github.io/HAT4D/

arxiv 论文：https://arxiv.org/abs/2606.28215

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

【学术投稿】请在工作日发送邮件至：ai@qbitai.com，标题注明【投稿】，并告诉我们：你是谁，从哪来，投稿内容附上项目 / 主页链接，以及联系方式。

我们会 ( 尽量 ) 及时回复你 : )

点亮星标

科技前沿进展每日见

宙世代