深大团队让机器人听懂指令精准导航！成功率可达72.5%，推理效率提升40%

让机器人听懂指令，精准导航再升级！

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构，提出视觉 - 语言导航（VLN）新框架——UNeMo。

通过多模态世界模型与分层预测反馈机制，能够让导航智能体不仅可以看到当前环境，还能预测接下来可能看到的内容，并据此做出更聪明的决策。

相比主流方法，UNeMo 可大幅度降低资源消耗，在未见过的环境中导航成功率可达 72.5%，尤其是在长轨迹导航中表现突出。

目前，该论文已入选 AAAI2026。

以下是更多详细内容。

语言推理与视觉导航的 " 脱节困境 "

作为 Embodied AI 的核心任务之一，视觉 - 语言导航要求智能体仅凭视觉图像和自然语言指令，在未知环境中自主完成目标导航。

而随着大语言模型（LLM）的兴起，基于 LLM 的导航方法虽取得进展，但仍面临两大关键瓶颈：

推理模态单一：现有方法仅依赖语言推理，缺乏对视觉环境状态的预判能力，难以应对复杂场景的动态变化；

优化目标冲突：推理模块与导航策略分开训练，导致两者适配性差，无法实现动态协同优化，存在性能瓶颈。

双模块协同打造 " 预判 + 决策 " 闭环

于是研究团队提出了 UNeMo 框架，其核心突破在于构建了" 多模态世界模型（MWM）+ 分层预测反馈导航器（HPFN）"的双向协同架构，将视觉状态推理与导航决策深度绑定，从根本上解决现有方法的脱节问题。

基于多模态世界模型的未来视觉状态预测

MWM 基于条件变分自编码器构建，核心是精准预判未来视觉状态。

它能够接收当前视觉特征、语言指令与候选导航动作，通过跨注意力机制融合多模态信息，填补现有方法 " 只看当下 " 的局限。

而且无需额外标注数据，就能通过导航决策结果反向反馈，持续优化预测精度，形成自适应进化循环。

高效分层预测反馈导航器的实现

HPFN 采用两阶段分层机制兼顾效率与精度：

先基于当前视觉 - 语言特征生成粗粒度候选动作（a ’）锁定导航方向，再融合 MWM 预测的未来视觉状态优化出细粒度动作（a ’’）修正偏差，让智能体在复杂场景中稳健导航。

推理与决策的动态闭环赋能

UNeMo 这一通用导航架构最核心的突破在于构建了" 推理 - 决策 "相互赋能的闭环优化。

MWM 的视觉预判为导航提供前瞻信息，提升决策精准度；导航的实际执行结果则实时反馈给 MWM，优化其预测准确性。

这种双向促进让智能体在导航中持续迭代，解决传统 LLM-based VLN 方法中推理与决策分离的痛点。

实验表现

为全面验证 UNeMo 框架的核心价值，团队设计了全面的实验评估方案：

从核心场景的性能与效率双优验证，到复杂场景的鲁棒性突破，再到跨基线、跨数据集的可拓展性验证，层层递进展现架构优势。

1、核心场景突破：R2R 数据集上 LLM-based 方法的效率与性能双优

在 VLN 领域核心数据集 R2R 的实验中，UNeMo 在轻量化配置与高性能决策的平衡上实现了关键突破。

其采用的 FlanT5-1.5B 模型参数规模仅为主流方法 NavGPT2 所用 FlanT5-5B 的30%，但在资源消耗上实现了大幅优化——

训练时 GPU 显存占用从 27GB 降至 12GB，减少 56%；推理速度从每步 1.1 秒提升至 0.7 秒，效率提升 40%。

这种 " 降参不降能 " 的特性，对 VLN 方法的工程化落地意义重大。

同时，UNeMo 在核心性能指标上仍实现了对主流方法的超越。

在模型未见过的测试环境（test unseen）中，其导航成功率（SR）达到 72.5%，较 NavGPT2 的 71% 提升 1.5 个百分点；路径效率（SPL）从 60% 提升至 61.3%。

2、复杂场景鲁棒性：长路径导航的显著优势

为验证 UNeMo 在复杂场景的适应能力，团队重点测试其预探索机制对长距离导航鲁棒性的提升，在 val-unseen 数据集上对比 UNeMo 与 NavGPT2 在不同路径长度下的表现。

结果显示，UNeMo 的优势在长轨迹导航中尤为突出：

短路径（长度＜7）的导航成功率（SR）仅微增 1.2%（从 71.1% 至 72.3%）；而长路径（长度≥ 7）的 SR 大幅提升 5.6%（从 64.2% 至 69.8%），提升幅度是短路径的4.7 倍。

这证明 UNeMo 的多模态预判与分层决策机制，能有效缓解长距离导航中的累积误差，解决传统方法在长轨迹任务中性能衰减的痛点。

3、跨场景可拓展性：多基线与多数据集的全面验证

为进一步验证 UNeMo 协同训练架构的通用性与可拓展性，团队将其迁移至不同类型的导航基线（DUET）与目标导向导航数据集 REVERIE，开展跨场景验证。

实验结果显示，其在 unseen 场景的导航成功率（SR）与远程目标定位成功率（RGS）指标上均有提升。

这表明 UNeMo 的协同训练架构并非局限于 LLM-based 基线，而是能灵活适配不同类型的导航系统，在不同任务场景中释放价值，验证了其强可拓展性。

总的来说，UNeMo 针对传统 VLN 方法推理与决策脱节、资源消耗高的问题，以 " 多模态世界模型 + 分层预测反馈导航器 " 协同架构破解痛点。

其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势，为 VLN 提供高效可行方案，助力服务机器人等实际场景落地，推动 VLN 领域发展。

论文链接：https://arxiv.org/abs/2511.18845

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签