盖世汽车 03-27
Waabi推出自动驾驶基础模型Copilot4D
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

盖世汽车讯 人类生活在一个随着时间不断演变的动态 3D 世界中,当与这个世界互动时,大脑会在几分之一秒内不断做出数百个决定。从是否应该过马路到开车并决定并入另一条车道,大脑具有非凡的能力,能够在整个时间(第四维度)中理解 3D 空间,从而确定最佳行动。虽然这对许多人来说似乎是第二天性,但它实际上涉及极其复杂的推理技能,对于人造大脑来说并不那么简单。

图片来源:Waabi

以人类如何理解和与周围的世界互动为例。人类依靠视觉和听觉等感官来感知世界,而智能机器则依靠传感器来感知世界。在过去几年中,LiDAR 已成为智能机器感知物理世界的主要传感器,因为它提供了对导航和交互至关重要的精确 3D 信息。LiDAR 通过脉冲激光发射光线来测量表面与传感器的距离。在基本层面上,每次照射到物体并返回传感器的光线都会捕获一个 LiDAR 点。该功能使机器能够 " 看到 " 物体表面所在的 3D 精确点。

然而,挑战仍然存在:如何使这些智能机器能够可靠、高效地从这些传感器读数中提取信息,以实时了解世界并与世界互动?

相信答案就在于生成式人工智能。该领域最近的突破彻底改变了数字世界。大型语言模型(LLM)已经证明,当人工智能扩展为从互联网上的大量数据中学习时,可以实现无限的可能性。如今,这些模型通常被称为基础模型,因为它们具有多功能性,并且能够进行微调以执行从数学和编码到文本摘要和聊天机器人的各种应用程序。

据外媒报道,Waabi 推出首个在 3D 空间和第四维度、时间中明确推理的基础模型 Copilot4D,学习在动态世界中交互和行动的卓越能力,无论是在仿真中,如 Waabi World,还是在现实世界中。该模型为更智能的机器(从自动驾驶汽车到机器人等)铺平了道路。

与 LLM 通过预测句子中的下一个单词来学习类似,Copilot4D 通过预测机器未来将如何观察世界来学习。然而,虽然 LLM 从代表单词的离散标记中学习,但激光雷达数据本质上是连续的。为了弥合语言和物理世界之间的差距,Copilot4D 采用了 3 阶段架构。

首先,LiDAR 标记器将连续传感器数据抽象为一组离散标记,类似于语言中的单词。

然后,Waabi 基础模型利用 LLM 的最新突破,预测世界将如何作为一组代币演变。重要的是,它考虑了具体人工智能代理的未来行为将如何影响世界。

最后,LiDAR 渲染器将这些标记带回 LiDAR 点云,机器人可以像人类通过眼睛看到的那样进行观察,使人类能够从原始传感器记录中学习,而无需人工监督。

以上为 Copilot4D 如何在高层工作,接下来从分词器开始更深入地了解它的三个组件。标记器 UltraLiDAR 可以将连续的传感器数据抽象为鸟瞰图中的离散标记网格,换句话说,就好像场景是从鸟儿俯视时看到的一样。网格中的每个标记本质上描述了场景的局部 3D 邻域,并且是具体代理用来详细了解其环境的基础。

配备了一组代表物理世界的离散标记,该基础模型就可以预测下一组标记,以预测未来场景将如何演变,例如不同的车辆和行人将做什么。这与典型的 LLM 的过程类似,LLM 预测句子中的下一个单词,但 Copilot4D 预测的不是单词,而是周围世界的下一个版本。值得注意的是,LiDAR 点云比单词更加复杂和高维,因此像 LLM 那样一次预测一个标记在计算上是令人望而却步的。为了克服这一挑战,Waabi 利用离散扩散来并行预测多个标记,从而使模型更加高效。

为了使人们对未来的信念回归到机器和人类可以理解的表示形式,Waabi 采用了一个 LiDAR 渲染器,它本质上具有与标记器相反的作用:将离散标记映射回连续的 LiDAR 点云。为此,Waabi 利用受物理学启发的可微神经深度渲染中最先进的技术来预测每条激光雷达射线的准确深度。

为了证明 Copilot4D 的功效,Waabi 将其性能与多个公共排行榜中点云预测任务的最先进模型进行了比较。模型提供了一系列过去的 LiDAR 点云,并评估其预测具体代理在特定时间范围内(例如未来 3 秒)将观察到的未来 LiDAR 点云的能力。在此评估中,Copilot4D 的性能大幅优于现有方法。

Copilot4D 具有许多新功能,可实现大量应用程序。它可以生成全新场景,可以完成部分场景,可以根据过去预测未来,并且可以针对具体代理的不同反事实轨迹执行此操作。重要的是,它可以从不同的实体(汽车、卡车、机器人等)中了解世界,这些实体可以配备不同类型、数量和位置的激光雷达传感器。这使 Copilot4D 能够泛化到尚未接受过培训的应用程序和情况。

Copilot4D 标志着智能机器在如何利用原始传感器数据了解所处的世界,而且了解它未来将如何发展方面取得了突破。它使自动驾驶汽车等智能机器能够做出更安全的决策,这些决策不是被动的,而是主动的。例如,当自动驾驶车辆准备改变车道以遵循特定路线时,它可以提示 Copilot4D 进行变道动作,以了解相邻车道上其他车辆的反应,确保安全后再开始行驶。Copilot4D 也很高效——所需的计算位于智能代理本身,它可以通过观察世界和交互来学习,而不需要人类监督。Waabi 相信,Copilot4D 是在现实世界中实现更智能、更安全、更高效的自主机器(从自动驾驶车辆到仓库机器人、无人机等)的关键。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

人工智能 机器人 传感器 物理 激光雷达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论