雷锋网 17小时前
浙大彭思达团队 × 理想最新研究:直面高分辨率深度的细节缺失
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在单目深度估计中,分辨率越来越高已经是一个很常见的趋势。很多方法可以输出   2K   甚至   4K   的深度结果,看起来也确实比低分辨率更细致。

但在实际使用中,这类高分辨率深度并不总是好用。尤其是在三维重建、新视角合成等对几何一致性要求较高的任务中,物体边缘容易发虚,细小结构经常对不齐,结果并没有随着分辨率提升而明显改善。类似的问题在自动驾驶和机器人导航场景中同样存在,几何误差会影响障碍物边界判断和可通行区域估计,从而增加后续规划与决策的不确定性。

一个很重要的原因在于,现有方法大多仍在固定分辨率下预测深度,再通过插值将结果放大到更高分辨率。这样做虽然能够得到更大的输出尺寸,但在细节区域,本质上只是放大了原有的预测误差。

而对于依赖深度信息进行环境建模的自动驾驶系统而言,这种误差不仅影响局部几何质量,还会进一步影响路径规划和决策的稳定性。久而久之,人们开始意识到,高分辨率深度面临的瓶颈,可能并不只是模型不够复杂,而是预测深度的方式本身存在局限。

基于这样的观察,浙江大学彭思达团队联合理想研究团队,提出了论文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。这项工作并未急于在既有框架上追求更高指标,而是从深度的表示方式本身出发,重新思考高分辨率条件下深度应如何被建模和使用。

围绕这一思路,研究团队设计了一系列覆盖合成数据、真实数据以及三维下游任务的实验,将这种表示方式放到不同场景中加以检验,从而更细致地观察其在细节区域和复杂几何结构中的实际表现。

论文地址:https://arxiv.org/pdf/2601.03252

当深度不再受分辨率限制

研究团队通过一系列覆盖合成数据、真实数据以及下游三维任务的实验,系统验证了 InfiniDepth   在高分辨率深度估计、细粒度几何建模以及大视角渲染方面的有效性。

首先,在研究团队构建的   Synth4K   数据集上,对模型进行了零样本相对深度评测。Synth4K   由五个子数据集组成,分别来自不同高质量游戏场景,每个子集包含数百张分辨率为   3840 × 2160   的   RGB   图像及对应高精度深度图,能够真实反映高分辨率场景中的边缘结构、薄物体以及复杂曲面。

在评测过程中,研究人员同时报告了全图区域和高频细节区域的结果,并采用  δ 0.5、δ 1   和  δ 2   作为评价指标。在全图区域内,InfiniDepth   在五个子数据集上均取得了最优表现。

例如,Synth4K-1 上,InfiniDepth 的 δ 1 达到 89.0%,明显高于   DepthAnything   的   83.8%   和 MoGe-2   的   84.2%;在 Synth4K-3   上,其  δ 1 提升至   93.9%,相比 DepthPro 和 Marigold   等方法仍具有显著优势;在   Synth4K-5   上,InfiniDepth   的  δ 1   达到   96.3%,在所有对比方法中排名第一。这些结果表明,在整体区域内,该方法在高分辨率条件下具备稳定而一致的精度优势。

在进一步针对高频细节区域的评测中,研究人员仅在由多尺度拉普拉斯算子筛选出的几何变化剧烈区域计算指标。结果显示,所有方法在高频区域的性能都会明显下降,但 InfiniDepth   的下降幅度最小,且在多数子集上仍保持领先。

例如,在 Synth4K-1   的高频区域内,其 δ 1 达到 67.5%,而   DepthAnything   和   DepthAnythingV2   分别仅为   61.3%   和   60.6%;在   Synth4K-3   的高频区域中,InfiniDepth   的  δ 1   为   69.0%,相比   MoGe-2   的   63.4%   有明显提升。整体来看,InfiniDepth   在高频区域的  δ 1   指标通常比主流方法高出约   5   至   8   个百分点,表明这个方法在边缘、薄结构和局部几何变化区域具有更强的表达能力。

值得一提的是,这类高频区域本身并非只存在于合成数据中,而是广泛出现在真实世界的复杂场景中。在自动驾驶环境下,路缘、护栏、交通标志杆等关键元素往往具有细长、边界清晰且几何变化明显的特点,其深度估计精度直接影响车辆对道路结构和可行驶空间的理解能力。因此,在这些区域中保持稳定的几何表达,对于提升复杂道路环境下的感知可靠性具有实际意义。

研究团队还特别指出,这种性能差异并非来自后处理技巧。对于   Synth4K   的   4K   输出,绝大多数对比方法需要先在较低分辨率下预测深度,再通过插值方式上采样到   4K,而 InfiniDepth   由于采用连续深度表示,可以直接在   4K 坐标位置预测深度值,因此其在高分辨率评测中的优势反映的是模型原生的分辨率扩展能力。

在真实世界数据集上的零样本相对深度评测中,研究人员在 KITTI、ETH3D、NYUv2、ScanNet 和 DIODE 五个数据集上报告了  δ 1   指标。结果显示,InfiniDepth 在这些数据集上的表现与当前主流方法整体处于同一水平。

例如,在 ETH3D 上,其  δ 1   达到   99.1%,略高于 MoGe-2 的 99.0%;在 KITTI   上,其  δ 1   为   97.9%,与 DepthPro 和 MoGe 等方法基本持平;在 NYUv2 和 ScanNet   上,InfiniDepth 的表现也未出现明显退化。这些结果说明,即便模型只使用合成数据训练,其连续深度表示并未对真实数据的泛化能力造成负面影响。这种对训练数据分布变化不敏感的特性,在自动驾驶和移动机器人等实际部署场景中尤为关键,因为真实环境往往与训练条件存在较大差异,对感知系统的稳定性提出了更高要求。

在尺度深度估计实验中,研究团队将   InfiniDepth   与稀疏深度提示机制结合,并在   Synth4K   以及真实数据集上采用更严格的  δ 0.01、δ 0.02   和  δ 0.04   指标进行评测。雷峰网

在   Synth4K   的全图区域中,InfiniDepth-Metric   在   Synth4K-1   上的 δ 0.01   达到   78.0%,相比 PromptDA   的   65.0%   提升显著;在   Synth4K-3   上,其  δ 0.01   达到   83.8%,同样领先于所有对比方法。在高频细节区域内,这一优势更加明显,例如在   Synth4K-3   的高频区域中,InfiniDepth-Metric   的  δ 0.01   为   37.2%,而   PromptDA   仅为   24.7%,PriorDA   和   Omni-DC   的表现更低。这表明,在细节区域和高精度尺度估计任务中,连续深度表示能够带来更显著的收益。

在真实数据集的尺度深度评测中,研究人员同样观察到一致趋势。在   KITTI   和   ETH3D   上,InfiniDepth-Metric   的  δ 0.01   指标分别达到   63.9%   和   96.7%,均优于现有方法;在   DIODE   数据集上,其  δ 0.01   达到   98.4%,在对比方法中排名第一。这说明该方法在引入稀疏深度约束后,能够在真实场景中实现高精度且稳定的尺度深度预测。

此外,在单视图新视角合成实验中,研究团队将   InfiniDepth   预测的深度用于构建三维点云并驱动高斯渲染。实验结果表明,相比采用像素对齐深度的方法,在大视角变化条件下,基于该方法构建的点云分布更加均匀,生成的新视角图像中几何空洞和断裂明显减少,整体结构更加完整。这说明连续深度表示能够为三维建模提供更加稳定和一致的几何基础。

这种更可靠的三维几何结构不仅有利于视觉重建和渲染任务,在自动驾驶和机器人系统中同样具有现实意义。更准确的空间几何信息有助于系统对周围环境形成更清晰的空间认知,从而为后续的导航规划与决策提供更加稳定的感知支撑。

把深度放进三维里再看一次

这些实验结果来源于研究团队围绕 " 深度表示方式是否限制分辨率扩展性与几何细节恢复能力 " 这一核心问题所设计的系统实验。

研究人员指出,现有单目深度估计方法普遍在固定像素网格上进行深度预测,输出分辨率与训练分辨率强相关,高分辨率结果通常依赖插值或上采样,从而不可避免地损失高频几何信息。为验证这一问题是否源于表示方式本身,研究团队提出将深度建模为连续空间中的映射关系,使模型能够在任意图像坐标位置直接预测深度值。

在数据设计上,为避免真实数据集中深度标注稀疏、分辨率有限和噪声较大的问题对实验结论产生干扰,研究人员构建了   Synth4K   数据集,并进一步引入高频细节掩码,通过多尺度拉普拉斯能量筛选出几何变化最为剧烈的区域,从而实现对模型细节恢复能力的定量评估。

在实验设置上,所有对比方法均使用相同分辨率的输入图像,并在评测阶段统一对齐尺度;对于   4K   输出,基线方法的结果通过上采样获得,而   InfiniDepth   直接在   4K   网格坐标位置进行深度预测,以确保实验对比集中反映深度表示和解码方式的差异。在训练阶段,研究人员并未对整张深度图逐像素监督,而是随机采样大量坐标与对应深度值进行训练,这一策略既符合连续深度建模的设定,也使得高分辨率监督更加灵活。

为验证各个模块的贡献,研究团队进一步设计了系统的消融实验。当移除连续深度表示、回退到传统离散网格预测方式时,模型在   Synth4K   和真实数据集上的高精度指标普遍下降   8   到   12 个百分点;当去除多尺度局部特征查询与融合机制时,模型在细节区域的性能同样出现一致性退化。这些结果从定量角度证明,连续表示和多尺度局部查询是   InfiniDepth   性能提升的关键因素。雷峰网

在新视角合成相关实验中,研究人员进一步分析了像素对齐深度在三维反投影过程中造成点云密度不均的问题,并基于连续深度表示所支持的几何分析能力,根据不同区域对应的表面覆盖情况分配采样密度,从而在三维空间中生成更加均匀的表面点分布。实验结果表明,这一策略在大视角变化条件下能够有效减少孔洞和几何断裂。

不同场景下的一致性结论

综合上述实验可以看出,InfiniDepth   的研究意义不仅体现在指标上的提升,更在于研究团队通过多数据集、多指标和多任务的定量实验,清楚地表明高分辨率深度估计中几何细节恢复能力的主要瓶颈来源于深度表示方式本身。在   Synth4K   这一高分辨率基准上,高频细节区域中普遍达到   5   至   10 个百分点的性能提升,直接说明了依赖插值的高分辨率预测在几何建模上的局限性。

同时,真实数据集上的零样本评测结果表明,连续深度表示并未削弱模型的泛化能力,而在引入稀疏深度约束后,其在高精度尺度深度估计中的优势进一步放大。结合新视角合成实验可以看到,这种表示方式不仅提升了二维深度图在细节上的一致性,也为三维点云构建和渲染提供了更加稳定的几何基础。

在此基础上,这类连续深度表示所带来的稳定几何结构,使深度信息能够更自然地被用于后续的三维建模与环境理解。在自动驾驶和机器人系统中,这种高分辨率且一致的深度感知,有助于提升复杂场景下空间建模和导航决策的可靠性。

总体而言,研究团队通过在高分辨率合成数据、真实世界数据以及下游三维任务上的系统实验,用具体数据和指标证明了连续隐式深度表示在分辨率扩展性、几何细节恢复能力以及大视角渲染方面的综合优势,为单目深度估计的后续研究提供了清晰而可验证的方向。

研究背后的工作者

本论文的通讯作者彭思达,现任浙江大学软件学院研究员。他于   2023   年在浙江大学计算机科学与技术学院获得博士学位,师从周晓巍教授和鲍虎军教授,本科毕业于浙江大学信息工程专业。

彭思达教授在三维视觉、神经隐式表示以及深度感知等研究方向上具有扎实的研究积累和持续的学术贡献,已在多项国际顶级会议和期刊上发表高水平论文,并在多项学术评选中获得重要荣誉,包括 2025 China3DV   年度杰出青年学者奖和 2024 CCF   优秀博士论文奖。

此外,他在   GitHub   上分享的个人科研经验与学习资料获得约 9.7K   星标关注,致力于推动空间智能与几何感知领域的基础研究与应用落地。

彭思达教授的研究兴趣从神经隐式深度估计进一步拓展至动态场景建模、空间智能体训练以及大规模三维重建等方向,强调解决具有实际应用价值且尚未充分解决的核心问题,推动新技术在真实行业场景中的落地与影响。

参考链接:https://pengsida.net/

评论
大家都在看