苹果公司在自动驾驶技术领域实现了一项引人注目的突破。据报道,苹果将强化学习自博弈技术引入自动驾驶领域,通过 10 天生成了 16 亿公里的模拟数据,这一过程无需依赖真实世界的数据。这一成就标志着苹果在自动驾驶算法训练方面迈出了重要一步,尤其是在模拟数据生成和算法进化方面。
自博弈技术,类似于自对抗生成网络(GAN),是一种智能体通过与自我的副本或历史版本博弈来实现进化的策略。苹果在自动驾驶领域应用这一技术,设计了极简的奖励函数,通过生成大规模的模拟数据,让多个智能体在地图上进行自博弈,以此实现算法的进化。
一个实例中,苹果最多可以生成 150 个智能体(Agent),包括乘用车、重型卡车、自行车和行人等,生成的环境信息涵盖停车线和交通信号灯等。这种训练方式的优势在于速度快且成本低廉。利用公共云上的 8 张 A100,苹果每小时可以模拟和学习 44 亿次状态转移,相当于 720 万公里的驾驶经验,这一速度比利用真实数据快了 36 万倍。
在成本方面,苹果的这一成果同样令人印象深刻。每百万公里的费用不到 5 美元,折合人民币大约为 1 万公里 3 毛 6,这使得大规模模拟数据的生成变得经济高效。
苹果还将这一成果在 CARLA、nuPlan 和 Waymo 开放数据集上进行了零样本独立测试,均获得了当前最佳(SOTA)的表现,证明了其泛化性和鲁棒性。这些基准测试涵盖了不同的地图、驾驶场景、交通密度和评分标准,进一步验证了苹果工作的有效性。这一突破不仅展示了苹果在自动驾驶技术上的深厚实力,也为未来自动驾驶汽车的发展提供了新的可能性。
登录后才可以发布评论哦
打开小程序可以发布评论哦