关于第二代VLA，何小鹏在直播间下了不止三个OKR

文 | 最话 FunTalk，作者 | 刘宇翔，编辑 | 王芳洁

他们正在一路向东。

六天前，郑晓康和老编辑决定上路，他们驾驶小鹏 G7 从新疆喀什出发，目标是上海，这一程 5000 公里，计划全程使用第二代 VLA 智能驾驶，在完全没有数据积累的戈壁荒漠和车流复杂的十里洋场里相继验证——智能驾驶究竟能有多智能？它能开多远？

至 3 月 16 日晚上，两人抵达了西安，里程表显示已驶过 3000 公里，实测结果是，不使用智驾，人每天开 600-800 公里是上限，非常疲惫，但使用小鹏第二代 VLA，单人驾驶可以突破 1000 公里，并且在风景最美的地方，能偶尔解放一下双眼，往车外看，饱览壮美山河。

若在西部游玩，过去的司机想使用智驾系统会面临一个悖论：在非常极端的 1% 场景下，不放心用，但剩下的 99% 场景没必要用。因为在西部，99% 的路一马平川但风景乏味，1% 的路风景最好，但也是挑战最大的。所以，郑晓康和老编辑想看看这 1% 有没有解决办法。

有的，兄弟，有的。" 只有两种情况会阻止第二代 VLA，" 郑晓康在 3 月 16 日的小鹏汽车 ASK ME ANYTHING 直播连线中，对千里之外的小鹏汽车董事长、CEO 何小鹏、小鹏汽车通用智能中心负责人刘先明说，" 第一是修路，第二是纯粹物理传感器的极限。"

那是在吐鲁番到哈密阶段，因为 G30 连霍高速扩展、扩建工程，分了新旧两条车道，要切车道，他们接管了驾驶。第二次是遇到了暴雪，暴雪把毫米波雷达覆盖住后，系统提示要求接管停止智驾。

除此之外，第二代 VLA 全程没有让他们失望。此前，何小鹏曾认为 L4 级智驾的接管率以千公里计算，而 L2 级是以百公里计算。

" 我可以说印证了你这个观点，我们使用最长零接管里程，不包含充电和过检查站，是横跨两天，一共是 1220 公里。" 郑晓康说。

这个结果让何小鹏感到振奋。一般来说，自动驾驶分为三大场景，大部分是城市级的自动辅助驾驶，其次是园区自动驾驶，比如在小区内、停车场内，第三则是纯野外场景，包括这次横穿中国之旅。野外场景的自动驾驶是小鹏汽车在今明两年重点发力的领域之一。

春节期间，何小鹏专门去了趟非洲，那边没有路，路得自己开出来，还得避让可能出现的动物，" 如果去一些国家旅游，发现基本上没有道路，你就有一辆跑市区的车怎么开自动驾驶？我在路上不断想这个问题，将来这个问题一定会解决的，只是需要点时间。"

这是何小鹏在直播中，给刘先明派的一个 OKR。

01 极限测试

郑晓康选择这条路线，是经过深思熟虑的。

" 过去做过各种各样、大大小小的辅助驾驶评测，" 他在直播中说，" 你越往后做就会意识到，你的评测只能对你所在的城市负责。"

这是规则驱动时代的 " 数据围城 "。工程师们为北京五环、上海高架、深圳滨海大道等大城市的道路编写了无数条规则，智驾系统在这些地方表现得像个老司机。但一旦驶出舒适区，比如一个没有车道线的乡村路口，或者一个导航数据过时的施工路段，系统就会瞬间 " 失明 "，要么降级为 L2，要么直接退出。

在郑晓康和老编辑看来，唯有中国大地上，从中国最西边的新疆喀什一路开，才是对辅助驾驶系统泛化性能的最终极测试。

泛化性。这个词在人工智能领域指的是模型在未见过的、与训练数据分布不同的新数据上，依然能够准确预测或执行任务的能力。但在刘先明口中，它有了更朴素的解释：" 上线即全场景通用。"

在库尔勒，郑晓康做了一个更具挑战性的测试：用地图导航随机打点，让车辆在陌生城市中自主行驶。结果转了一个多小时，" 跑得非常好 "，而那里几乎没有小鹏的采集车。

" 这可能也可以表明小鹏一方面销售还需要更加努力，" 郑晓康在直播中开玩笑说，" 另一方面我们在这个城市采集的数据，对小鹏、对第二代 VLA 都非常有用，这可能是针对场景，针对其泛化性能有说服力的东西。"

" 之前我们说只要有小鹏车的地方就能开得很好，现在看起来没有的地方，好像也可以开，" 刘先明在直播中说。他的语气就像一个老师突然发现，自己的学生在完全没见过的考题上也能答对。

这种惊喜，源于第二代 VLA 底层技术范式的根本改变。

要理解 " 泛化性 " 为什么重要，需要先理解上一代智能驾驶系统是怎么工作的。

在过去十余年里，自动驾驶的核心方法论是 " 规则驱动 "。工程师们为每一种路况、每一个场景编写代码：遇到红灯停，遇到绿灯行，遇到行人减速，遇到施工路段绕行……系统就像一个严格遵守交通法规的新手司机，每一步操作都有明确的 "if-then" 逻辑。这就像在 " 在铁轨上开车 " ——只要预设的规则覆盖不到，系统就会 " 失明 " 乃至脱轨。

" 过去包括小鹏的 XNGP 一样，我们写规则，" 何小鹏说，" 但你会发现，从一线城市到四五六线城市，从中国到海外，特别是到很多没有交通道路标志的地方，规则就变成了一个既在中国道路开得好，但在全球开得不好的点。"

但第二代 VLA 依赖的不是写死的规则，而是推理。

媒体人大宇对第二代 VLA 的测评显示，当时导航并没有更新施工封路信息，按照导航提示是让车子在前面左拐，但突然间看到了封路，就在那个路障前面，车子停顿了 14 秒，在这 14 秒里第二代 VLA 没有降级也没有退出，而是在 " 思考 "，然后立马左转，及时更新了一条新路线。

研发团队并不确切知道在那 14 秒里，第二代 VLA 是如何运作的，因为大模型推理依赖思维链（CoT，Chain-of-Thought），而不是结构化思维 ( SoT ) 。但可以肯定的是，那 14 秒里第二代 VLA 在做推理，尝试推理不同路径的可行性，并选择了它认为最优解的那条。

这就是第二代 VLA 架构的核心优势。以视觉为核心，像人一样观察世界，无需语言转译，直接作出反应。可以直接用海量真实数据进行训练，接近 1 亿的视频训练数据量，相当于人类司机驾驶 65000 年才能遇到的极限场景综合。

这样的模型框架可以大幅降低信息耗损，让推理效率更高、反应更迅速。当前行业内的 L2 辅助驾驶，都是不同技术方案的缝合产物。高速、城区、小路、停车场，每一次切换场景都要切换不同的底层逻辑，也带来了体验上的割裂感，这种技术路线是无法实现「妈妈也爱开」的安心体验的。

第二代 VLA 依赖的是海量训练数据，在什么情况下跑得好、跑得不好取决于训练数据分布，小鹏汽车的训练数据来自于所有车主每天正常开的工况，包括雨天、雪天、黑夜。从 2024 年起，小鹏汽车切换到纯视觉路线，更新传感器、摄像头，具有更强通光量，动态范围更大，给模型泛化性带来了很好的硬件基础。

同时，模型的端到端延迟大幅降低，在极端情况下有更好的处理速度，这使得在路面湿滑、夜晚等情况下，小鹏第二代 VLA 也有非常一致的表现。

要做到这点非常难，从感知角度，摄像头采集到的视频流既有物理空间信息，又有时间连续性的内容，VLA 需要基于连续视频流产生更好的运动轨迹。在 L2 级里，大模型 " 看到 " 的是分辨率被极度压缩的连续的图片，因为搭载的处理算力有限。而第二代 VLA 能从 L2 级直接跃升到 L4 级，得益于物理AI能力提升。

刘先明在直播中给出了一个核心公式：L4 能力 = 模型 × 算力 × 数据规模 × 本体。

传统 AI 主要处理数字信息（如文本、图像），而物理 AI 需要理解并作用于真实的物理世界。小鹏的做法是自研图灵芯片（算力）、自研 VLA 模型（模型）、积累海量驾驶数据（数据）、深度整合 EEA 电子电气架构（本体）。这四个维度协同优化，才能实现真正的突破。

但这还远远不够，在看到大宇的评测视频时，何小鹏想的是为什么要等 14 秒？他觉得等个 2 秒就应该够了，大模型的推理速度应该要比人类的推理速度更快，也许 1-2 秒更 smart。

这是何小鹏给刘先明派的另一个 OKR。

02 让妈妈也敢开

技术突破最终要落脚到用户体验。关于用户体验，何小鹏只给了一个 O ——也就是目标（objective）：" 安心感 "。

" 安心超过了安全，" 他说，" 安全 + 放心 + 省心 + 舒心，这些放在一起，形成了安心。"

这个理念的诞生，源于一次私人经历。即使何小鹏做了多年智能驾驶，一度他母亲还是不太愿意尝试智驾。何小鹏在直播中回忆，" 后来实在坳不过我，戴着安全带，两只手抓着右上角的把手，特别紧张。"

那是两年前，当时市面上的智驾系统时不时传出突然急刹、加速或者卡死不动的新闻，老人家不愿尝试情有可原。但何小鹏从那次经历中看到了一个更深层的问题：智能驾驶不能只是"极客尝鲜"，而要成为 " 大众常用"。

" 我跟很多朋友在聊，我说：’你买的车有智驾吗？’他说：‘有，但不开。’什么品牌都有。我问：’为什么？’‘这里不能开、那里不能开，就怕了。’ "

这种 " 怕 "，本质上是对系统能力的 " 不信任 "。用户不知道系统在什么时候会 " 掉链子 "，所以宁可自己开。这是阻碍智能驾驶普及的最大心理障碍，它远比技术更难解决，而第二代 VLA 的目标，就是消除这种 " 不信任 "。

小鹏汽车内部有一个测试项目叫 " 洒了吗 "，就是把装着水的杯子放在车上，启动智能驾驶，看行驶过程中水会洒多少，洒得很少的，那就开得很好；洒了很多，那开得不好。多位媒体人在测试第二代 VLA 后反馈：开了 1-2 个小时，没有碰到一次重刹。

何小鹏曾邀请好几位职场妈妈去试驾，她们最开始也非常担心，但体验了智驾后，都惊喜于 " 它什么都懂，而且又比我聪明，比我开得丝滑，比我认真，到处在看，从来不走神，所以她们的情绪很稳。"

在何小鹏看来，" 情绪很稳 " 是一个非常重要的指标，一个比接管率、通行效率更感性的、更难以量化的指标，它反映的是：坐在车里的人，如若情绪是稳定的，那她 / 他一定是觉得处在舒适、安全状态之中，即安心。

安全不仅针对车内人，也包括车外人。最近一个视频在网上的讨论度很高，一位司机驾驶着小鹏汽车正常驾驶时，突然 VLA 离奇地减速，才提醒他注意路面情况，随后他发现了前方路面躺着四个孩子，并及时踩下了刹车。而那四个小朋友之所以躺在大马路上，仅仅是想模仿减速带。是的，道路千万条，你永远不知道会遇到什么人、什么事。

刘先明在看到那段视频时，心理很复杂。在事件发生后，团队调取了车辆的后台数据，发现第二代 VLA 确实发现了前方异常，并减速，只是减速度还不足以马上刹停。但如果不是第二代 VLA 及时提醒，司机其实并不知道路面躺着孩子，他只是看到车子自动减速了，才去踩的刹车，事后，他害怕了几天：如果是自己开的车，可能就以为前面是 " 减速带 "，直接压过去了。

根据神经科学和心理学领域的权威研究，人眼看到，大脑分析到做出动作反应，所需时间约 200 毫秒到数秒不等，其中在开车时面对一个复杂且危险的突发情况出做躲避动作，需要 500 毫秒乃至数秒，这还不包括车辆根据驾驶员动作的响应和制动时间。

这是很多交通事故的原因，而智能驾驶的目标就是最大限度减少因人的生理机制而产生的安全风险。" 安全是我们做智能驾驶最重要的事情，也是为社会做的最重要的事情。把安全做好，把技术做好，才是真正完美的 L4。今天 VLA 只是减速了，只是在让路，但它还没有完全刹停，我们还应该做得更好。"

这其实是刘先明到小鹏后，领的第一个 OKR。在其负责智能驾驶的第一天，何小鹏提的要求就是：要保证人的安全，要保证每个人的安全。这次事件也给团队提了个醒，虽然第二代 VLA 已经很强，但离做到完美还是有距离。

这种对安全近乎偏执的追求，源于一个朴素的数据：全球每年因交通事故直接死亡人数接近 20 万。在广东省，刑事犯罪中超过 40% 是酒驾。何小鹏算了笔账：如果有一天，智能驾驶普及，车跟车之间能够通讯，互相提示危险，他相信全球每年因交通事故死亡人数能从近 20 万人大幅降低到 200 人。

这将挽救无数个家庭，也将大幅度减轻妈妈、新手对于开车的恐惧，并更接受智驾。

第二代 VLA 发布后，小鹏邀请了部分员工的妈妈、爸爸们来体验，" 开了 15 分钟以后，真的是敢开（智驾）了，" 何小鹏说，这些反馈让他感到特别开心。

" 一位妈妈或者是一个新手开智驾，根据他们的主观判断，舒适程度是开普通车的 5 倍，我给刘先明定的目标是到今年年底再提高 5-10 倍。" 这是直播中，何小鹏给刘先明派的第三个 OKR。

03 不止智能汽车

何小鹏最近有点 " 招人烦 "。出差时，他会忍不住挑剔司机的驾驶技术，" 切线可以舒缓一点 "，没办法，他已经适应了第二代 VLA 的丝滑。

但任何传感器、大模型都是物理极限的。" 我们研发的场景涵盖了白天、黑夜、晴天、雨天、雪天。但大家一定要记得，人完全不能开的地方，也不应该让智能驾驶去尝试。" 何小鹏在直播中提了个醒。

让智能驾驶适应全场景全地形，非常难，涉及到软硬件各个层面，而小鹏汽车选择的又是最难的那条路。

和很多车企的 " 拿来主义 " 不同，小鹏汽车在所有维度上从头自研、全面自研，包括自研的图灵芯片、针对芯片重新设计的模型结构和编译器、重建的软件架构，以及自己的 AI 基础设施。

这是 " 华山一条路 " 啊，铺路石是决绝般的勇气和投入。何小鹏透露为了研发第二代 VLA，每个月要花三个亿，连续十几个月才可能有效果，" 当时我也是心里面慌得一批。"

但正是这种破釜沉舟的勇气，让小鹏打破了原来的天花板。

在自动驾驶的分级体系中，L2 是辅助驾驶，L3 是需要监督的自动驾驶，L4 则是完全自动驾驶。行业主流观点认为，这是一个循序渐进的过程。但小鹏的选择是：跳过 L3，直接从 L2 跨越到 L4。

第二代 VLA 是小鹏汽车迈向 L4 的第一个版本，小鹏 " 跳级 " 的底气源于大模型改变了一切。纯视觉方案以统一视觉模态提升响应效率与驾驶安全性，搭配大算力、大模型驱动的高质量连续数据流，让第二代 VLA 的决策更准。第二代 VLA 的 " 拟人化感知 " 模拟人眼感知世界、人脑处理信息的方式，让辅助驾驶系统变得聪明和拟人，也让一台车从一个冰冷的驾驶工具，变成一个能被全家接受的 " 智能体 "。

在直播中，何小鹏分享了一个让他特别开心的细节：自 3 月 11 日全国 732 家小鹏门店全面启动第二代 VLA 试驾后，市场反馈远超预期，不少用户专程和家人一起到门店试驾体验，并表示第二代 VLA 在某些情况下开得比专业司机还好。

而根据小鹏汽车官方公布的数据，在 3 月 2 日第二代 VLA 智能驾驶系统发布后，小鹏 X9 第二代 VLA 版本的大定占比直接超过了 80%，刷新了该车型的版本占比新纪录。

家庭用户用脚为更智能的小鹏车型投了一票。在 AI 时代，汽车不仅要有聪明的 " 大脑 "（智驾），还要有会思考的 " 小脑 "（智舱），甚至要懂得与底盘、动力系统进行跨域融合。何小鹏在 2026 年年会上明确提出，智能座舱和智能驾驶将技术合流组成超级智能体，汽车正式进入跨域融合的新阶段。

" 以后你打车去机场，如果无人驾驶，你要跟谁说‘在星巴克门口停一下’？" 刘先明用一个例子解释了跨域融合的必要性。当车内没有司机，车本身必须成为一个能听懂人话、理解意图、并调动所有零部件完成指令的 " 机器人 "。

为了让 " 人 " 上车，小鹏调整了组织架构——将智驾、智舱、动力、底盘整合进一个团队（One Team），让车真正成为用户的智能伙伴。

何小鹏透露，今年二季度，小鹏的整个架构融合将基本完成，三四季度会加速向前推进，让更多车型的平台化越来越好。这种能力，正在从汽车向更广阔的领域延伸。同样的 VLA 技术逻辑，正在被用于小鹏的机器人和飞行汽车。在 2025 年科技日上，小鹏正式升级定位为 " 物理 AI 世界的出行探索者，面向全球的具身智能公司 "。

在何小鹏看来，有轮子的车、有脚的机器人、有翅膀的飞行器，本质上都是物理 AI 在不同载体上的演化。而 VLA 的泛化能力，让这种跨域迁移成为可能。何小鹏透露，机器人领域的进展超出预期，第四代运控体系与第二代 VLA 运动体系的解耦，将让小鹏机器人实现更拟人化的动作。全新一代 IRON 人形机器人目标是在 2026 年年底实现规模量产。

这种从汽车向机器人、飞行汽车的延伸，并非简单的技术移植，而是基于同一个底层逻辑：理解物理世界、与物理世界交互。这也解释了为何小鹏敢于提出 " 从 L2 直接跨越到 L4" 的战略——因为小鹏汽车做了很多跟 infra 相关的事情，完全用 AI 解决，积累了大量技术和经验。

第二代 VLA 和特斯拉 FSD 都采用纯视觉路线，但小鹏有自己的理解和工程实现方式。对于外界关于 " 中美智驾差距 " 的热议，何小鹏在直播中的回答很坦然：中美同处第一梯队，各有千秋。但中国道路更复杂，这反而给了中国智驾更好的训练土壤。当攻克了最难场景后再泛化到其他路况，小鹏的 VLA 就有了走向全球的底气。

刘先明也补充，近两年最大的变化是中美 AI 人才格局的转变，中国 AI 人才快速崛起，叠加政策支持、数据规模庞大、用户接受度高，中国企业有望在全球物理 AI 竞争中占据领先地位。

在全球竞争中，" 一般是第一有肉吃，第二有汤喝，第三啥都没有了 "。车企之间的技术军备竞赛是越来越卷了，但小鹏 " 卷 " 并不是为了让账面数据更好看，它的原点，依然是那个让母亲松开了扶手的瞬间。

何小鹏说，技术的本质是让生活更轻松。

3 月 19 日开始，第二代 VLA 被将被陆续推送到小鹏各款车型。这是第二代 VLA 量产的第一个版本，也就意味着 " 在未来，它是分数最低的一个版本，因为我们还在持续不停地迭代，后面的每一个版本都会不停地向上。" 刘先明也自己派了个 OKR。

" 对于 AI、物理 AI 世界变化的思考，" 何小鹏在直播最后说道，" 可能都比不上你去我们门店试驾 15 分钟，那时你才会相信，无人驾驶真的会在未来几年到来，机器人会走进家庭，生活会被彻底改变。你试过之后，才会对未来有更新的认识。"

有些认识，确实只有自己去试过才知道，有些路，智能驾驶开过去你就会相信，它将载着人类 " 一路向东 "。

实测视频参考：

https://mp.weixin.qq.com/s/3o7IXmf2VpE8XCaXDHF00g