通讯工程：融合数学建模与AI的无外部参照3D定位新范式

拍摄者：高千惠、何逸铭、尚可可

导语

在低空飞行物实时定位领域，如何在无外部参照、无姿态测量的条件下实现高精度三维坐标识别，始终是制约无人机监管与反制技术发展的核心瓶颈。传统视觉定位方法或依赖昂贵的惯性测量单元（IMU）和精密标定设备，或受限于单帧图像的几何歧义，在复杂气象条件下难以保持鲁棒性。2026 年 3 月发表于 Communications Engineering 的这项研究，提出了一套融合非线性时间序列分析与代数拓扑的实时定位框架。该框架将物理信息嵌入 YOLOv12 视觉检测，并引入奇异值分解（SVD）实现 2D 到 3D 的几何重构，仅需三台手持设备即可在强干扰环境下完成地心大地坐标的精确解算。这项工作为低空安防提供了高效解决方案，也为人工智能前沿算法与传统应用数学的深度结合提供了可行路径，对复杂系统建模具有推广价值。

关键词：物理信息神经网络（Physics-informed Neural Networks），奇异值分解（SVD），三维大地测量定位，非线性时间序列分析，低空飞行物追踪，无姿态测量，复杂系统建模

何逸铭丨作者

靳子璇丨审校

论文题目：Bridging mathematical modeling and AI for 3D coordinate recognition of moving objects without external reference and attitude measurement

论文链接：https://www.nature.com/articles/s44172-026-00648-x

发表时间：2026 年 3 月 20 日

论文来源：Nature · Communications Engineering

无外部参照场景下的定位难题

如何在没有 GPS 信号、没有预置标定物、没有姿态传感器的拒止环境中仅凭几台普通相机精准捕捉无人机黑飞、突然出现的飞鸟等非合作目标的三维轨迹，不仅是低成本城市低空安防的迫切需求，也是复杂系统建模领域的基础科学问题。

近年来，深度学习为视觉感知带来了革命性突破。YOLO 系列模型能以毫秒级速度完成目标检测，为实时应用提供了可能。然而，将 2D 图像坐标转换为 3D 世界坐标，始终面临两个难以调和的矛盾。

首先是精度与极简的矛盾。传统摄影测量方法依赖对极几何和迭代优化，需要精确的相机内外参标定，且对单帧误检极度敏感，任何飞鸟掠过或光线反射都可能导致系统崩溃。纯数据驱动的深度学习方法虽然端到端便捷，却缺乏物理可解释性，在未见场景下泛化能力堪忧。

其次是静态与动态的矛盾。现有方法多将视频流视为独立图像的集合，通过单帧几何关系反推三维坐标，忽略了时间维度上的运动连续性。这种离线思维在气象条件恶劣、目标机动性强时，往往力不从心。

正是在这样的背景下，南京大学计算传播学实验中心的尚可可副教授与西澳大学复杂系统中心的 Michael Small 教授合作，提出了全新的实时定位框架。其核心设计理念可以概括为物理约束、代数重构、时序融合三个关键词。

融合物理约束与代数重构的新框架

该框架的工作流程分为两个精密配合的阶段：

第一阶段：基于物理直觉的感知处理。

传统 YOLO 检测仅依据单帧图像进行判断，容易将相似的静止物体或者其它飞行物体等误判为真实目标。而该框架创新性地为 YOLOv12 植入了时间序列 TS 模块，利用非线性动力学中的相空间重构思想，通过分析目标自身的物理速度及其在过去时间步长的演化轨迹，建立其运动的流形结构。

当新的观测数据进入时，算法并非简单接受像素坐标，而是判断该点是否符合既有的动力学流形。如果某帧检测位置违背了物理惯性或运动连续性，例如偏离吸引子轨道，TS 模块会将其识别为系统噪声并剔除。这种基于动力学的清洗机制赋予系统极强的抗干扰能力，即使在体育场遭遇极端气象条件，仍能保持稳定追踪。

第二阶段：基于 SVD 的代数解算。

在获得高纯度时序数据后，再利用奇异值分解（SVD）从多视角时序数据中估计相机间的相对位姿，并进一步求解相似变换矩阵，实现世界坐标系下的高精度 3D 定位。

图 1 2D 到 3D 转换框架。该框架首先使用卷积神经网络进行基于人工智能的 2D 检测，以获得捕获图像中对象的 2D 坐标时间序列。然后利用时间序列和速度的物理特征对这些坐标进行精化。核心方法利用时间序列和奇异值分解来估计摄像机的相对位姿。进一步采用基于奇异值分解的方法计算相似变换矩阵，推导出摄像机到世界坐标系的坐标变换，最终实现世界坐标系中的三维大地测量定位。

这种方法的颠覆性在于实现了无姿态测量。系统完全摒弃 IMU 等外部传感器，仅凭视觉观测的时间演化规律，便完成了对三维姿态的代数重构。配合后端轻量级的光束法平差 Bundle Adjustment，系统在保证实时性的同时，达到了理论上的全局最优解。

性能验证：从仿真到真实场景

研究团队设计了从虚拟到现实、从理论到工程的完整验证链条，将新框架与基线方法进行了正面交锋。

数值模拟：理论精度测试

在正式走向野外之前（如图 3），研究团队首先在 200 × 200 × 100m 的虚拟 3D 空间中进行了严格的数值模拟。三台地面相机以 120 ° 间隔布设，观测一段由 15 个控制点定义、经三次样条插值至 900 帧的螺旋上升轨迹。在 Phase I-Batch Initialization 积累 300 帧后，Phase II-Online Tracking 进行实时坐标识别。

图 3 双阶段验证的模拟场景

结果令人振奋：在零噪声理想条件下，系统的 RMSE 仅为 7.8 × 10 ⁻ ³ m，MAE 为 7.6 × 10 ⁻ ³ m，R ² 几乎为 1。这一近乎完美的精度证明，基于 SVD 的代数重构在理论上是精确且自洽的，误差仅来源于计算机数值求解的固有近似。这一结果表明 SVD 代数重构方法在数学层面具有极高的精度。

真实世界：恶劣天气下的性能检验

研究团队在南京大学仙林校区第一体育场开展无人机实地实验，测试区域为 100 × 100 × 30m。值得注意的是，为了验证系统的鲁棒性，团队特意选择了雨天、光照严重退化的恶劣天气条件下采集的飞行视频作为测试集，这正是传统视觉方法最容易失稳的场景。

图 5 无人机三维坐标实时识别实验示意图。 ( A ) 数据预处理：采集三个摄像头拍摄的无人机飞行图像，按 8：2 的比例分为训练集和测试集。 ( B ) YOLOv12 模型训练：用在各种场景中捕获的无人机图像训练集来训练基于 YOLOv12 框架的无人机检测模型。 ( C ) 基于 YOLOv12 的无人机预测：训练好的模型用于预测三个摄像头捕获的视频中无人机的包围盒，这些原始的每帧输出可能仍然包括漏检和误检。 ( D ) YOLOv12-TS：使用我们提出的双阶段 YOLOv12-TS 改进预测的无人机探测：第一阶段适用于轨迹完成和异常值拒绝；第二阶段仅适用于异常值拒绝。 ( E ) 第一阶段：批量初始化：使用精化的 2D 坐标时间序列来估计相机姿势，为 3D 坐标识别做准备。 ( F ) 第二阶段：在线跟踪：通过奇异值分解三角测量和相似性变换进行实时三维坐标识别。根据无人机机载定位设备提供的地面真实 3D 坐标数据来评估重建的轨迹。使用的度量是 RMSE、MAE、最大误差和 R 平方。

实验结果图 5、图 6 表明，在仅使用三台普通相机、无任何外部参照和姿态测量设备的配置下，系统取得了以下结果：RMSE：5.45 m、MAE：4.83 m、R ²：0.91。

图 6 使用 X、Y 和 Z 轴上的地面真实数据对无人机 3D 坐标识别结果进行评估。该图分为三部分： ( A ) 显示无人机 3D 坐标沿 X 轴的偏差， ( B ) 沿 Y 轴的偏差，以及 ( C ) 沿 Z 轴的偏差。红色实线表示从识别过程中获得的无人机 3D 坐标，而黑虚线表示由机载定位设备提供的相应地面真实无人机 3D 坐标。

其中代表高度的 Z 轴定位精度最高，为 RMSE 1.66 m，R ² 0.98；X 轴次之，达到 RMSE 2.55 m，R ² 0.93；Y 轴受限于基线几何布局，误差相对较大，仅为 RMSE 4.52 m，R ² 0.80，但整体轨迹与机载 GNSS 真值高度吻合。

后端优化的关键作用

如表 3，消融实验进一步验证了 Bundle Adjustment 后端的价值。

表 3 展示 BA 后端优化的消融实验结果。RMSE：均方根误差 ( M ) ；MAE：平均绝对误差 ( M ) ；R2：R- 平方 ( 决定系数 ) 。"w/o BA"：不带束调整 ( 仅限 SVD ) ；"w/BA"：带背景束调整细化。

以 YOLOv12 为前端检测器时，纯 SVD 方法的 RMSE 为 6.30 m，R ² 为 0.87；而引入滑动窗口 BA 优化后，RMSE 降至 5.45 m，R ² 提升至 0.91。这一提升在 Y 轴和整体轨迹上尤为明显，证明 BA 能有效抑制长时飞行中的累积漂移。

表 4 仿真和无人机实验的运行时性能。所有计时结果在 10 次重复运行中取平均值。实时系数以帧间隔与 30 FPS 的每帧延迟之比计算。

如表 4，在实时性能方面，Phase I 的批量初始化在 2000 帧数据上耗时仅 0.33 秒；进入 Phase II 后，单帧 3D 坐标识别的延迟仅为 0.039 毫秒，约为 30 FPS 视频帧间隔的 1/850。这意味着系统不仅能精确计算，还能实时跟踪，满足工程现场的实时性需求。

结论与展望

数学与 AI 的深度融合，能否在极简硬件条件下实现传统方法难以企及的定位精度？论文通过数值模拟与真实场景的双重验证，给出四个相互支撑的核心结论。

第一，理论精度可接近机器极限。在 200 × 200 × 100 m 的虚拟 3D 空间中，基于 SVD 的 2D-3D 坐标转换在理想条件下实现了 RMSE 仅 7.8 × 10 ⁻ ³ m、R ² 几乎为 1 的精度，误差仅来源于计算机数值求解的固有近似。这证明 SVD 代数重构在数学层面是精确且自洽的。

第二，工程场景下的鲁棒性得到充分验证。在南京大学体育场雨天的恶劣光照条件下，仅使用三台普通智能手机相机，系统实现了 RMSE 5.45 m、MAE 4.83 m、R ² 0.91 的三维定位精度，Z 轴精度更是达到 RMSE 1.66 m、R ² 0.98。这意味着消费级设备在极端环境下也能完成可靠的大地测量定位。

第三，实时性能远超工程需求。Phase II 在线跟踪的单帧处理延迟仅为 0.039 ms，约为 30 FPS 视频帧间隔的 1/850，实时系数超过 800 倍。配合后台 Bundle Adjustment 的滑动窗口优化，系统在长时间飞行中仍能有效抑制累积漂移。

第四，方法具有模型无关的普适性。如表 2，时间序列模块对 YOLO v8 至 v12 的所有版本均带来性能提升，且物理信息门控与轨迹补全机制可被即插即用地集成到任何现有检测框架中，无需重新训练主干网络。

表 2 在三个摄像头视图中使用和不使用时间序列 ( TS ) 模块的 YOLO 变体 ( V8-V12 ) 的综合基准。该表详细说明了 IOU 加权精度 ( IOU-P ) 、召回 ( IOU-R ) 和 F1-Score ( IOU-F1 ) 。改进 ( ∆ ) 表明 TS 模块实现了性能提升。

一个无需外部参照、无需姿态测量的实时混合 3D 定位框架，可在诸多场景中大展身手。在低空经济监管中，它可以作为核心感知引擎，实时追踪未报备飞行物；在应急救援中，它能为无人机集群提供拒止环境下的相对定位基准；在生态保护中，它有望以非侵入方式追踪鸟类等野生动物的迁徙轨迹；在基础科研中，它为复杂系统的非线性动力学建模提供了可验证的实验平台。

当然，任何技术框架都有其边界。当前系统主要针对单目标场景设计，多目标并发追踪时的数据关联与轨迹分离仍是待解难题；论文以三台相机为基准，相机数量与空间布局的优化也有进一步挖掘空间，更多视角可能提升精度与鲁棒性；此外，在建筑物密集的城市峡谷环境中，遮挡与多径效应将对系统性能提出更严苛的考验。未来工作可沿三个方向展开：将多目标数据关联机制嵌入 TS 模块，探索自适应的相机网络拓扑优化，以及在更复杂的城市环境中开展长时连续观测验证。

复杂系统自动建模读书会第二季

" 复杂世界，简单规则。"

集智俱乐部联合复旦大学智能复杂体系实验室青年研究员朱群喜、浙江大学百人计划研究员李樵风、清华大学电子工程系数据科学与智能实验室博士后研究员丁璟韬、美国东北大学物理系 Albert-L á szl ó Barab á si 指导的博士后高婷婷、北京大学博雅博士后曹文祺、复旦大学数学科学学院应用数学方向博士研究生赵伯林、北京师范大学系统科学学院博士研究生牟牧云，共同发起「复杂系统自动建模」读书会第二季。

读书会将于 9 月 5 日起每周四晚上 20:00-22:00 进行，探讨四个核心模块：数据驱动的复杂系统建模、复杂网络结构推断、具有可解释性的复杂系统推断（动力学 + 网络结构）、应用 - 超材料设计和城市系统，通过重点讨论 75 篇经典、前沿的重要文献，从黑盒（数据驱动）到白盒（可解释性），逐步捕捉系统的 " 本质 " 规律，帮助大家更好的认识、理解、预测、控制、设计复杂系统，为相关领域的研究和应用提供洞见。读书会已完结，现在报名可加入社群并解锁回放视频权限。