3D 模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。
近年来使用成熟海量的 2D 实例分割数据来辅助实现 3D 实例分割成为了一个极具潜力的研究方向,但实现思路不尽相同。
近日 IDEA 计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为 OVSeg3R 的开集 3D 实例分割学习新范式。
该范式基于团队此前发布的最强闭集 3D 实例分割模型SegDINO3D
拓展至开放词表,大幅缩小了长尾类与头部类的性能差距(差距从 11.3 mAP 降至 1.9 mAP),实现了开集 3D 实例分割的性能飞跃。
与传统训练范式相比,OVSeg3R 无需对输入点云进行人工后处理,也不需要高成本的物体 3D 掩码人工标注,大幅降低了 3D 实例分割的训练成本,有望让 3D 实例分割从 " 只能识别已知类别 " 的闭集模式,到 " 可识别未知类别 " 的开集模式实现商业落地,广泛应用于自动驾驶、智能家居、机器人导航等需要精准 3D 场景理解的领域。
△ 视频 1:从视频到开集空间感知工作流
△ 视频 2:OVSeg3R 与闭集 SoTA 模型(SegDINO3D)感知结果对比可视化一、3D 感知的 " 卡脖子 " 难题
3D 实例分割,就是让计算机像人眼一样,看懂三维空间里的每一个物体,以及精准勾勒出每个物体的边界范围。
这项技术是自动驾驶、机器人服务等智能场景的 " 眼睛 ",没有它,自动驾驶汽车就分不清行人与障碍物,服务机器人也找不到需要递送物品的桌子。
尽管 3D 实例分割技术已发展多年,但行业内一直存在一个无法绕开的核心瓶颈:3D 数据的获取和标注成本太高,难度太大。
我们可以通过一个直观的对比理解这个问题:2D 图像标注很简单,标注员在图片上框选物体、标注类别即可,一张图片几分钟就能完成;但 3D 数据标注完全不同,它需要处理的是一种由无数个三维坐标点组成的场景模型(即点云)。
标注员要在这个立体模型中,不断调整角度、逐点勾勒出每个物体的轮廓(即 3D 掩码)。这个操作不仅需要专业的 3D 建模知识,还极其耗时。
这种模式直接导致了 3D 感知模型的训练数据,在数量和类别丰富度上远远落后于 2D 图像数据。
行业内也尝试过通过外挂 2D 感知模型或者逐场景优化来解决这个问题,但这些方法大多存在明显的缺陷,典型的解决方案如:
1. 将 3D 感知模型的任务收缩到只需要输出 3D 掩码,掩码所对应的类别则通过投影回到 2D 上,然后让外挂的 2D 感知模型来接手分类任务。
简单说,就是让 3D 模型只负责 " 找到有物体 ",然后把找到的物体投影回 2D 图像,让成熟的 2D 模型来判断 " 这是什么 "。这种方法虽然利用了 2D 模型的强大分类能力,但 3D 模型本身发现新物体的能力没有任何提升,依然只能找到训练过的有限类别,无法应对未知物体。
2. 将多视角的 2D 感知模型的结果借助深度图投影到 3D 空间,然后再通过启发式算法通过人工设定的规则将多视角的感知结果聚合,让属于同一个 3D 实例的掩码聚合到一起。
这就像用多张不同角度的照片拼立体模型,看似可行,但拼接用的 rule-based 算法非常脆弱,一旦物体被遮挡、重建噪声过大,都有可能导致拼接错误,最终影响识别精度,性能上限低。
3. 通过 3D 高斯技术把 3D 场景投影成 2D 图像,用 2D 模型的识别结果来训练 3D 模型。
但这种方法有个致命问题:需要针对每个场景单独优化 3D 高斯表征,就像给每个房间单独画一张专属地图,无法通用,极大限制了模型的实用性。

△ 图 1 左图为传统的训练方案;右图是 OVSeg3R 的训练方案
正是在这样的背景下,研究团队提出了 OVSeg3R,其核心思路在于:既然 2D 感知模型已经很成熟、数据也足够丰富,那就让 3D 模型向 2D 模型学习。
而连接两者的关键,就是 3D 重建技术。通过使用 3D 重建降低数据获取成本,同时用其提供的 2D 与 3D 映射关系,把 2D 模型的识别结果搬到 3D 空间,从而自动生成 3D 训练标注,形成数据闭环。
二、OVSeg3R 的技术原理
要实现 3D 模型向 2D 模型学习的核心思路,OVSeg3R 需要解决两个关键难题:
一是 3D 重建结果通常比较平滑,就像把场景磨平了一样,一些几何结构不突出的物体(比如薄纸巾、扁平的垫子)会和背景融在一起,导致 3D 感知模型根本找不到它们;
二是如果简单地将各个视角的 2D 感知结果投影到重建出的 3D 场景中,那么,只要一个 3D 实例在一个视角下可见,就会产生一个标注,从而导致过多的重复的标注结果,极大地影响了模型训练过程的稳定性。
为了解决上述难题,OVSeg3R 设计了一套清晰的学习范式,这个过程共分为 3 个阶段:

△ 图 2 OVSeg3R 的学习范式 1. 基本数据准备
首先,研究团队会输入一段场景视频。这段视频会被分成两条路径处理:
一条路径送入3D 重建模型,生成场景的 3D 点云(也就是立体模型),同时得到 2D 图像像素与 3D 点云坐标的对应关系;
另一条路径送入成熟的2D 分割模型,在获得图像级、物体级的特征(作为 SegDINO3D 特征补充)的同时,也会提供 2D 实例分割结果,以及对应的各个实例的类别名称。
2. 模型输入和标注准备
这一阶段的核心是把 2D 模型的知识转化为 3D 模型能看懂的资料,同时解决 3D 重建平滑和重复标注的问题,具体做了 4 件事:
给 3D 点贴语义标签:获取每个 3D 点所对应的含有丰富语义信息的 2D 特征。
基于重建提供的 2D 与 3D 的对应关系,我们可以为每个 3D 重建出的点提供其所对应的含有丰富语义特征的 2D 图像特征。相比起 SegDINO3D,这一步不需要额外计算相机参数来匹配 2D 和 3D。
给点云分组:把庞大的 3D 点云划分成一个个小的超级点(superpoint)。
关键在于,划分不只是看几何结构是否连续(比如桌面上某块空白区域中的点彼此间很平滑、连续,则被归为一个超级点),还参考了 2D 分割结果作为判断超级点边界的依据(比如 " 相片 " 的点和 " 墙面 " 的点即使在几何结构上十分连续,也不会归为一组)。
研究团队把这种划分方式称为" 基于实例边界的超级点(IBSp,Instance-Boundary-aware Superpoint)"(如图 3 中的(b)所示)。IBSp 不仅提高了模型训练的稳定性,而且对于实际应用场景也十分有意义(用户通常没有 3D 传感器,输入通常为视频)。
制作分类参考依据:把 2D 感知模型识别出的所有物体类别名称拼成一个字符串,形成文本提示(text prompt),用来作为后续分割模型进行开集分类时的依据。当然,在实际推理时,用户可以指定任意的文本提示。
生成分视角标注:把每个视角的 2D 分割结果,通过 2D 与 3D 的对应关系投影到 3D 空间,生成每个视角对应的子场景 3D 标注(如图 3 中的(a)所示)。

△ 图 3 对应上述 OVSeg3R 技术中的两个关键步骤的可视化说明 3. 模型学习
这一步的核心是让 3D 模型(基于 SegDINO3D 拓展的 SegDINO3D-VL)学习并掌握开集分割能力,具体过程可以分为" 特征提取 - 解码 - 监督学习 "3 个环节:
特征提取:把 3D 重建得到的带噪点云,以及每个点对应的 2D 语义特征,一起送入 3D 骨干网络,提取出每个点的 3D 特征;再根据之前划分的超级点进行聚合,得到超级点级的 3D 特征。
特征解码:把超级点级 3D 特征送入 Transformer 解码器,解码出实例级特征。这些特征一方面会用来和超级点特征计算相似度,从而得到分割结果;另一方面,为了将分类能力拓展到开集,研究团队将这些特征和从文本提示拿到的文本特征计算相似度,从而拿到开集分类结果。团队将这个拓展后的 SegDINO3D 称为 SegDINO3D-VL。
监督学习:研究团队设计了一个名为" 视角级实例划分(VIP,View-wise Instance Partition)" 的策略,把模型估计出的各个分割结果划分到到他们所属的视角,并用阶段 2 生成的分视角标注上进行监督学习。简单说,就是让模型只在当前视角的标注范围内学习,从而避免把其他视角的重复标注计算进来,极大地提升了训练的稳定性。
通过上述方案创新,OVSeg3R 在极具挑战性的 ScanNet200 3D 实例分割基准测试中,不仅大幅超越所有现有开集模型,同时刷新了闭集模型的最新记录,将长尾类与头部类的性能差距从 11.3 mAP 骤缩至 1.9 mAP,彻底改善类别性能不均衡问题。

△ 图 4 OVSeg3R 刷新 ScanNet200 3D 实例分割基准的闭集和开集记录
不仅如此,在标准开集设定下(仅用 20 类人工标注训练,需在 200 类上测试,其中与人工标注的 20 个类别概念有显著差别的类别被定义为 novel 类别),从下表可以看出,在 novel 类上性能(mAPn)较此前最优方法飙升 7.7mAP,开集识别能力呈现显著优势。

△ 图 5 在标准的开集设定下,OVSeg3R 在 novel 类别呈显著优势
如图 6、图 7 所示,由于几何结构稀疏(比如三脚架)以及细小物体(比如瓶子、鼠标、插排)在充满噪声的点云上进行人工标注的难度很高,因此在现有数据集中,这些类别的缺失十分严重,导致已有算法无法处理这些类别。但 OVSeg3R 依然能将这些物体稳定地识别并分割出来。

△ 图 6 OVSeg3R 稳定识别出细小物体和几何结构稀疏物体

△ 图 7 更多 in-the-wild 的结果可视化三、应用场景
OVSeg3R 强大的成本和开集识别优势,有望在推动开集 3D 实例分割落地发挥重要作用。以具身智能为例:
OVSeg3R 正在打破制约具身智能发展的 " 数据成本 " 与 " 开放世界 " 双重壁垒。
通过消除对昂贵人工 3D 标注的依赖,OVSeg3R 利用 3D 重建与 2D 基础模型从原始视频中自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本。
在语义导航与长程规划中,OVSeg3R 的开集识别优势使其能精准定位训练集中未见的 " 长尾 " 物体。
例如,它能成功识别几何特征微弱的电源插座或细长的三脚架,有效解决了在传统数据集上训练出的模型对扁平或细小物体 " 视而不见 " 的难题,确保了机器人自主充电与避障的安全性。
在精细操作场景下,OVSeg3R 利用 2D 视觉的丰富纹理弥补了 3D 几何的不足。
面对白色塑料袋等几何模糊、易与地面混淆的非刚性物体,OVSeg3R 能凭借其 IBSp(2D 实例边界感知超点)技术生成精确的 3D 掩码,为机器人抓取与导航应用奠定空间感知基础。
作为一种可扩展的 " 数据引擎 ",OVSeg3R 将海量视频转化为机器人的 3D 语义知识,不仅解决了 Sim-to-Real 的语义鸿沟,更为构建低成本、高泛化的通用具身智能系统铺平了道路。
现阶段,该技术成果的产业转化已取得进展,并由 IDEA 孵化企业视启未来主导推动落地。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦