机器人为什么总在现实世界“翻车”？群核两篇CVPR论文给出新解法

近日，国际计算机视觉顶级会议 CVPR 2026 放榜。群核科技联合浙江大学、宇树科技共同完成的两篇论文双双入选，分别涉及具身智能终身学习框架和视觉语言模型空间推理基准。CVPR 堪称是 " 计算机视觉界的奥斯卡 "，每年汇聚全球最前沿的 AI 研究成果。本届 CVPR 有效投稿数达 16092 篇，最终录用 4090 篇，录用率 25.42% 。

机器人如何 " 越用越聪明 "？Arcadia 框架实现具身智能学习闭环

其中，论文《Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning》提出面向具身智能终身学习的全生命周期闭环框架 Arcadia，涵盖数据收集、模型训练，到实际部署后的自我进化和知识更新的完整过程。它主要探讨的是如何让机器人像人类一样，在不断变化的环境中 " 活到老学到老 "。

在该框架中，群核科技发挥了其在空间重建和空间生成上的核心优势。依托其自研的 SpatialLM 大模型，系统能够将机器人采集的多模态传感器数据高效解析为结构化语义信息；结合 SpatialGen 的空间生成能力，系统可自动生成丰富的仿真 3D 场景。随后，通过空间智能训练平台 SpatialVerse 进行物理特性模拟和和数据扩增，为机器人提供了海量且物理一致的 " 训练场 "。

实测数据显示，在宇树 G1 人形机器人的真实世界零样本测试中，Arcadia 框架表现卓越：导航任务成功率达到 46%，操作任务成功率达到 27%。相较于 NaVILA、OpenVLA 等主流开源方案，其整体性能提升约 3 倍，尤其在多目导航与多物体协同操作等复杂场景中展现出显著优势。

AI 真的理解空间吗？SpatiaLQA 构建空间逻辑推理 " 考卷 "

而论文《SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models》关注的，是一个更基础的问题：AI 是否真的理解空间？

今天的视觉语言模型其实已经很强了。它们擅长 " 看懂是什么 "（物体识别、描述）以及 " 答对为什么 "（抽象问答 / 常识推理）。但在真实物理空间任务中，面对遮挡关系、相对位置约束、操作顺序判断等问题时，能力短板往往暴露无遗。

例如，当机器人执行书架整理任务时，需要准确判断哪些书是支撑点、哪些摆件可独立移动——如果空间逻辑理解出错，抽出一本书可能导致整排物品倾泻而下。SpatiaLQA 基准测试不仅提供了一套涵盖多种空间逻辑关系的评测数据集，更系统化定义了评价指标。

值得注意的是，群核科技 SpatialLM 的空间理解能力，为 SpatiaLQA 基准的构建提供了重要技术支撑。

过去几年，大模型主要改变的是数字世界。文本、图像和视频的生成与理解，都已被 AI 深度重塑。但 AI 走进物理世界需要的核心能力是：对物理空间的理解与交互。而这恰恰是当前语言模型所欠缺的。

从这个角度看，此次入选的两篇论文分别触及了两个关键命题：Arcadia 框架解决的是机器人 " 如何持续学习以适应真实世界 "，SpatiaLQA 回答的是 " 如何衡量 AI 对空间逻辑的理解程度 "。它们共同指向一个判断：空间智能正在成为 AI 从数字世界迈向物理世界的那块 " 关键跳板 "。在这过程中，群核科技始终是链接数字世界和物理世界的重要桥梁。

宙世代

一起剪

相关标签