ICRA 2026最佳论文奖，千寻智能首席科学家、清华高阳团队FP3入围

原文作者：谭梓馨

原文链接：https://mp.weixin.qq.com/s/llcXE2be4oNWItL_0ydVZw

2026 年 IEEE 国际机器人与自动化会议（IEEE ICRA 2026）是机器人与自动化领域的顶级学术盛会，于 6 月 1 日至 5 日在奥地利维也纳举办。

今年，FP3、HITTER 等多篇华人团队论文入围最佳论文奖提名，头部科技此前曾报道过HITTER，今天来看另一篇研究 FP3。

FP3 论文的导师之一高阳是清华大学跨学科信息科学研究院（IIIS）的助理教授，同时他也是国内具身独角兽千寻智能（Spirit AI）的联创兼首席科学家。

下面，一起来看看 FP3 做了哪些创新工作。

三维基座带来的改进

基于海量多任务数据预训练的基座大模型在机器人领域展现出巨大潜力，但绝大多数机器人基础策略模型仅采用二维图像作为输入观测，缺失三维几何信息，而三维几何是机器人感知、理解真实三维空间的关键。

概括来说，FP3 是一个面向机器人操作的大规模三维基座策略模型。

该模型参数大小为 1.3B，基于可规模化的扩散 Transformer 架构搭建，依托 6 万条含点云观测的运动轨迹完成预训练，凭借特有模型结构与多元化预训练数据，FP3 可快速微调适配各类下游任务，泛化性能优异。

真机实测表明：仅需 80 组人工示教样本，FP3 即可在包含全新未知物体的陌生场景中习得新任务，性能大幅领先现有机器人基座模型。

在自建的多项新任务数据集上验证 FP3 高效微调与强泛化特性，结果显示：仅使用单卡、两小时微调，相较主流基线，同场景性能平均提升 60%，开放未知场景性能平均提升 80%。

性能对比表现突出

FP3 的在架构中设计了一个编码器 - 解码器扩散 Transformer 网络，首先对多模态输入进行编码，包括 3D 点云、语言和机器人本体感受状态，然后对动作进行去噪。

研究人员与业内其他机器人控制策略进行了对比，域内实验结果显示，单场景仅 10 条示教样本条件下：DP、DP3 仅能勉强完成简单任务，多数场景成功率不足 50%，在倒水这类高难度任务上基本失效；OpenVLA 整体各项任务表现糟糕，根源在于缺少连续动作块预测机制。

依托预训练与三维点云表征，FP3 全部任务成功率突破 90%。从实操现象来看，基线算法失败多源于动作精度缺陷：夹取时定位偏差推飞物件、倒水时瓶口对偏等；而 FP3 凭借大参数量与海量预训练，可精准拟合复杂目标动作，输出轨迹更平滑、控制精度更高，显著优于对比算法。

将机械臂更换至全新环境、使用从未见过的物体开展零样本测试，不含预训练的所有基线策略普遍无法识别目标物体，任务成功率近乎归零。

反观经过预训练的 FP3 极少出现识别失效，全场景平均成功率超 80%，全面碾压对照组。

研究认为优异性能来自两点：一是大规模预训练覆盖海量场景与物件，大幅提升策略鲁棒性；二是点云输入可精准捕获三维几何特征，是实现跨域泛化的关键。

指令跟随测试结果显示，在初始环境完全一致的条件下，使用多条不同文本指令测试 FP3 与基线策略，FP3 可精准依照指令执行对应任务，并非单纯死记训练数据分布。

研究人员在论文中表示，FP3 虽作为基座策略模型表现优异，但仍存在若干短板：

第一，FP3 下游微调效率与泛化能力突出，但基座原生零样本性能偏弱，诱因大概率是预训练所用 DROID 数据集体量不及 OXE 等二维机器人数据集，后续可构建规模更大的三维机器人数据集用于预训练。

第二，FP3 仅依靠 CLIP 嵌入实现语言条件接入，难以表征复杂动态语义；后续可将本扩散架构 FP3 与视觉大模型 VLM 融合，搭建类似 π 0 的视觉 - 语言 - 动作（VLA）模型；

第三，当前 FP3 未复用 DINOV2、SigLIP 等成熟预训练二维视觉编码器，融合三维点云特征与二维图像特征、或将二维特征升维至三维空间具备巨大优化空间，相关研究留作未来工作。

具身独角兽激烈竞逐

FP3 之外，高阳所在的千寻智能今天也官宣了两大进展。

一方面，其自研具身基座模型 Spirit v1.6 在具身基准测试平台 RoboArena 中成功登顶，性能超过英伟达 Cosmos3 与 Physical Intelligence Pi0.5，成为首个登顶的中国具身模型。

另一方面，该公司宣布新获 15 亿元 A+ 轮融资，从 2 月份至今融资近 50 亿再次刷新行业纪录。

千寻智能在官宣中表示 2026 年将积累 100 万小时级真实世界交互数据的阶段性沉淀，涵盖丰富的长尾复杂场景与多模态操作样本，构筑核心护城河。

在另一份榜单具身智能大规模真机评测平台 RoboChallenge 的 Table30 系列任务测试中，千寻智能此前发布的 Spirit v1.5 目前排名第四，排名第一的是星动纪元 Era0 模型，其次是原力灵机的 DM0 和极佳视界的 GigaBrain-0.1，模型排位变换之间也见证了中国具身智能创业赛道竞争之激烈。

今年以来，估值超百亿的具身独角兽不断扩容，除了上述几家公司，赛道中还有银河通用、星海图、智元、智平方、自变量、星尘智能、灵心巧手、帕西尼感知等等，即将 IPO 的宇树也计划将募资重点投入到具身智能大模型。

独角兽们的技术竞逐，正加速机器人行业拐点的到来，推动中国成为全球具身智能落地的核心市场。

-END-

雷峰网

宙世代

一起剪

相关标签