量子位 昨天
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型总是无法理解空间,就像我们难以想象四维世界。

空间推理是人类理解三维世界结构的核心认知能力,也是多模态大语言模型(MLLMs)在实际应用中面临的关键挑战之一。

当前大多数方法采用" 语言描述式调优 ",即通过文本符号让模型学习空间概念,却从未真正 " 看见 "这些概念在视觉上的表现,导致模型出现" 视觉文盲 "现象——即无法在生成回答时关注到正确的视觉区域。

如图,基线模型在回答关于 " 木椅 " 的问题时,其视觉注意力并未集中在目标区域,而是分散在无关区域。这反映出当前 MLLMs 在空间语义与视觉感知之间缺乏跨模态对齐,无法像人类那样通过心理想象来支撑空间推理。

为解决上述问题,由多高校、机构组成的研究团队提出了MILO(Mplicit spatIaL   wOrld modeling),一种隐式空间世界建模范式,通过引入视觉生成反馈,将符号推理与感知经验隐式地结合起来。

1. 从 " 看到 " 到 " 想到 "

MILO 在传统语言调优的基础上,引入视觉生成调优,形成一个包含两个阶段的训练流程:

视觉生成调优阶段:

模型接收几何变换指令(如 " 向右转 "),并调用视频扩散模型生成对应的新视角图像,从而学习空间变换在视觉上的表现;

语言调优阶段:

在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。

通过这种方式,MILO 使 MLLMs 能够内化几何变换的视觉表现,建立起类人的隐式空间世界模型。

2. 摆脱绝对坐标,学会相对感知

为了进一步增强模型的几何感知能力,团队提出了RePE(Relative Positional Encoding,相对位置编码),一种基于相对相机位姿变换的位置编码方案。

与传统的绝对坐标系编码不同,RePE 不依赖于全局坐标系,而是捕捉相邻帧之间的相对变换,从而具备更好的泛化性与跨数据集适应性。

研究团队构建了 GeoGen 数据集,一个包含约 2,241 个视频和 26.7 万个" 观测 - 动作 - 结果 "三元组的大规模几何感知生成数据集。

GeoGen 涵盖两类核心任务:

新视角合成:

根据指令生成相机移动后的新视图;

轨迹生成:

根据起点和终点生成相机运动路径,要求模型理解场景的整体几何结构。

数据来源包括扫描的 3D 场景(如 ScanNet、ScanNet++)和互联网视频(如 RoomTour3D),确保了数据的多样性和真实性。

研究团队在多个基线模型(Video-3D LLM、VG-LLM、RoboRefer)和五大类空间理解任务上验证了 MILO 的有效性:

3D 场景理解任务:

在 ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D 等基准上,MILO 均取得最优性能,尤其在 ScanRefer 上 Acc@0.25 提升 3.2%;

空间推理任务:

在 VSI-Bench 上平均准确率达 61.7%,超越基线 VG-LLM 2.2%;

具身任务:

在 RefSpatial-Bench 的三个子集上全面领先,尤其在未见组合关系任务上提升 1.3%。

作者:Meng Cao, Haokun Lin, Haoyuan Li, Haoran Tang, Rongtao Xu, Dong An, Xue Liu, Ian Reid, Xiaodan Liang

单位:Mohamed bin Zayed University of Artificial Intelligence;Sun Yat-sen University; Peking University; Spatial-Temporal AI

论文:http://arxiv.org/pdf/2512.01821

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论