雷锋网 07-17
先让 AI 学会害怕,再让它握紧方向盘
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

元戎启行研发 VLA 模型,在智能驾驶无人区开启 " 疯狂冒险 "。从概念到落地,他们用坚持诠释技术信仰,让智能驾驶从 " 执行 " 迈向 " 思考 "。

破局:从路牌困惑到 " 读懂 " 世界

2024 年 6 月的一个炎热下午,周光乘坐测试车经过公司附近的一处红绿灯,一个不起眼的交通牌提示 " 车辆左转不受灯控 ",测试车依旧停下等待红灯变绿。

那一刻,他盯着后视镜里不断鸣笛的车辆,意识到:人类司机能瞬间理解这类特殊场景,但即便是当时最接近人类驾驶能力的端到端模型,也因无法理解文字路牌未能通过。

这个问题在他心里种下了一颗种子,后续的内部会议上,他与研发团队几次提起这个问题。

与此同时,元戎启行正在探索通用人工智能的多元路径。RoadAGI 实验室里诞生了 VLA 原型,它具备环境语义理解能力,能完成取放物品、避障行走等简单任务。

在一次 Demo 演示中,周光发现这个能根据环境信息和语言指令自主决策动作的模型,与需要解读复杂路况的智能驾驶模型有着惊人的相似性,不同的是它能够理解语义信息。

这给了他很大启发,仿佛密码锁最后齿轨的咬合,思路迷宫轰然中开。随着 ChatGPT 等大语言模型爆发,周光与团队更加确定:当现阶段端到端模型陷入 corner case 泥潭时,融合语言理解的 VLA 或许能开辟新航道——这不是简单的技术叠加,而是让机器真正开始 " 读懂 " 物理世界。

2024 年 9 月,元戎启行将 VLA 模型提升为公司级研发项目。

在技术发展的浪潮中,时间往往至关重要,这是一场早于行业的 " 技术豪赌 "。引领者从不等 " 风口 ",而是提前看见风的方向。

元戎启行作为一家人工智能企业,始终相信 AI 技术将重塑生产力关系,引领第四次工业革命的到来。在众多 AI 衍生应用中,元戎启行选择智能驾驶作为突破口,因为它能打破数字与物理世界的壁垒。

随着辅助驾驶技术大规模上车应用,元戎启行打造的基座模型将借助驾驶行为与物理世界深度交互,进而洞悉其运作规律。无论是 " 无图 " 方案、端到端模型,还是 VLA 模型,元戎启行始终围绕 AI 技术解决问题。

但最难的从来不是技术本身,而是在无人区找到那条对的路。VLA 模型的出现,让智能驾驶从 " 执行者 " 迈向了 " 思考者 "——它开始理解 " 为什么这样开 ",而不仅仅是 " 怎么开 "。

这是 VLA 模型的优势,也是研发之路的开始。

攻坚:在荆棘中定义 " 安全 " 边界

当决定了新的技术方向,大家都兴奋不已,希望作为行业技术引领者,率先研发出更好用的智能驾驶方案。但当着手开始做,才发现了重重困难。

一方面,VLA 在智能驾驶领域研究应用少,可参考的专业知识匮乏,研发人员需大量阅读资料后逐步摸索;另一方面,公司面临客户量产压力,主线资源倾向量产项目,且新技术效果有不确定性,VLA 研发只能保守推进,进度缓慢。

" 最开始,我们都被 VLA 的 ' 语言天赋 ' 迷住了。" 产品经理石杰回忆道。

VLA 模型具备强大的文字理解及 OCR 识别能力,团队投入大量精力攻克潮汐车道、可变车道、待转区等文字理解场景。

当测试车顺利通过当初困扰大家的 " 车辆左转不受灯控 " 指示牌,并给出文字解释其驾驶决策过程时,车上的人非常激动,这解决了现阶段端到端系统的 " 黑盒 " 问题,通过思维链(CoT)实现透明化推理,极大增强用户的信任度。

同时,VLA 模型在互联网学习海量知识,能够处理很多 corner cases,例如识别超载小货车、路面上的轮胎等等;还可以通过语音交互控车,实时对话驾驭车辆。

然而,一次测试中的惊险一幕,让所有人对 VLA 的期待有所转变。

测试车在桥洞正要左转,目之所及没有任何车辆,测试车匀速前进,突然窜出一个外卖骑手迫使车辆紧急重刹,车上的人都吓了一跳。大家反思如果是老司机开车,一定会在桥洞盲区提前减速避免风险。

这点醒了所有人,安全才是辅助驾驶的生命线,用户需要的是一个真正安全的辅助驾驶系统,能够主动预判和规避风险,这比 " 语音交互 " 更为重要。

对整个场景的高级语义推理是目前端到端系统缺乏的,却是 VLA 更擅长的,这一刻," 防御性驾驶 " 成为 VLA 模型的核心进化方向。

技术可以不断突破极限,但安全永远是我们的底线。在安全、效率和舒适中,我们努力找到一种平衡,让辅助驾驶成为用户日常爱用的出行方式。

研发之路也充满技术攻坚,VLA 模型研发人员肖毅正在摸索。VLA 模型的研发要经历架构设计、数据探索和规模化、模型验证、部署上车、持续迭代等流程。在架构设计时,起初肖毅计划云端推理,将大语言模型部署云端,数据回传至车端控车,但实车上路云端到车端的时延太大,例如车速 60km/h,假设时延需要 2s,在拿到云端结果时,车已经向前跑了 33 米,在这期间实际路况已经发生变化,对于需要及时响应的场景,行驶安全将受到极大威胁。一个月后,研发团队放弃了云端推理,改为本地部署模型。

对车端有限的算力来说,模型车端部署给模型设计、模型加速以及部署优化都带来了全新挑战。研发团队压缩了词表,对模型做了剪枝(pruning)和加速,同时元戎启行强大的推理引擎团队对 VLA 模型做了大量的算子优化、显存优化、硬件新特性适配等,最终使得 VLA 在车端顺畅地跑起来。

当然,还有另一个更大的挑战。数据是一切 AI 模型的基础,大规模的高质量数据对 VLA 模型来说是重中之重,靠人工标注,效率极低。后来肖毅通过迭代大模型自动给数据打标签,解决了数据规模标注难题,目前元戎启行也达到了千万级 Clips 的数据规模。

" 现在行业都在追逐大模型,但真正稀缺的是对驾驶本质的理解。" 周光常对团队强调。当行业忙着给系统加载更多语料库时,元戎启行的 VLA 正在深度学习" 如何在不完美的人类驾驶环境中做出最安全决策 "——这才是 AI 司机的灵魂。

领航:驶向更安心的 AI 时代

今年,将有超 5 款搭载元戎启行 VLA 模型的车量产,首款车 8 月即将上路。

" 对于 VLA,我期待可以应用到 Robotaxi 上,成为真正的 AI 司机,让用户在安静环境中与它直接沟通。它不仅能响应指令,还能主动守护安全。" 周光说到。

随着 VLA 模型的迭代与应用,我们期待它不仅能成为用户的 "AI 司机 ",更能推动整个行业向更安全、更透明的智能驾驶时代迈进。让每一次出行,都更安心、更自在。

VLA 的研发,是元戎启行技术信仰的缩影。不做追随者,只做定义者,这条路很难,但值得。

穿行于行业发展的惊涛骇浪,元戎启行深知 VLA 不过是航程中的临时锚点,唯以技术研发为压舱石,才能于风浪中稳驭船身,航向人类智慧深处。

未来,元戎启行将不局限于汽车载体,致力于训练更先进的 AI 模型赋能多种智能体,实现任意点到点的移动能力,先达成 RoadAGI(道路通用人工智能),最终迈向通用人工智能,点燃人类生产力的质变奇点。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 元戎启行 智能驾驶 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论