对话曹旭东：把智驾带进物理AI时代

作者 | 柴旭晨

编辑 | 周智宇

2026 年的北京车展上，" 物理 AI" 成了被重复最多的词之一。

过去两年，全球科技行业的主角是数字 AI：大模型会写作、会编程、P 图，几乎重做了一遍互联网入口。但当数字世界的数据红利被快速消化之后，产业开始把目光投向更大的现实世界——道路、工厂、仓库、家庭、城市交通系统。

底层技术从数字空间迁移到物理空间，已经成为新的产业共识。问题在于，谁能成为物理世界的 OpenAI？

此次北京车展上，Momenta 给出的答案是：自动驾驶就是物理 AI 的序章，而 Momenta 想成为其中的平台型玩家。

跨界

2026 年 4 月 25 日，Momenta 发布 R7 强化学习世界模型，并将其定义为 " 物理 AI 序章 "。

Momenta CEO 曹旭东在发布会后对华尔街见闻表示，" 自动驾驶进入到了这个阶段。" 所谓 " 这个阶段 "，是自动驾驶已经成为目前少数能够同时打通 " 数据闭环 " 与 " 商业闭环 " 的物理 AI 赛道。这是理解 " 为什么自动驾驶是物理 AI 序章 " 的关键。

数字 AI 过去之所以爆发，是因为具备三个条件：海量低成本数据、快速低成本验证、成熟商业入口。互联网提供文本、图片、视频数据，用户点击一次、追问一次，模型就获得一次反馈，产品再通过订阅、广告、API 变现。

而大多数物理 AI 领域并不具备这些条件。

机器人缺数据、缺场景、缺反馈，更缺稳定现金流。一个机械臂想学会抓杯子，要真实硬件、真实动作、真实损耗；一次试错的成本，远高于数字世界的一次模型推理。

曹旭东向华尔街见闻直言，OpenAI 早期既做机器人，也做数字 AI，但阶段性放弃机器人去做 GPT，一个重要原因就是 " 机器的数据太难获得了。"

在曹旭东看来，GPT 需要的互联网数据，本身已经具备超大规模。但自动驾驶既属于物理世界，又天然拥有持续数据源。

每一台量产车都是移动传感器，每一次通勤、变道、避障、拥堵、泊车，都是模型训练样本。只要车辆规模足够大，真实世界的数据就会源源不断进入系统。

与此同时，它还有清晰的商业入口。

用户愿意为辅助驾驶买单，车企愿意为智能化竞争力买单，供应商可以通过定点、授权、装车获得收入。技术提升不仅意味着论文成绩更高，也意味着销量更高、ASP 更高、客户更多。这就是曹旭东所说的正反馈机制。

" 先有了数据闭环，然后才有足够好的体验，这个足够好的体验一旦达到了接近人类的水平或者超过人类的水平的时候，就能够实现爆发式的商业化。而这个爆发式的商业化之后，又会带来数据爆发式的增长。" 曹旭东说道。

换句话说，自动驾驶已经具备了物理 AI 最稀缺的飞轮结构。而 Momenta 正在这个飞轮里占据有利位置。

公司披露，已交付超过 70 款量产车型，累计定点车型数超过 200 款，搭载其系统的量产车辆规模已超过 80 万台。本届北京车展，超过 20 个品牌、60 余款车型搭载 Momenta 方案，包括奔驰、奥迪、宝马新发布车型。

这 80 万台车，不只是装机量，更是 80 万个持续采集现实世界复杂路况的数据节点。OpenAI 的模型靠全球用户提问进化，Momenta 的模型靠全球车辆上路进化。

但有了数据，还不够。物理 AI 真正的难点，不是看见世界，而是理解世界。

破局

曹旭东向华尔街见闻解释道，大语言模型依靠 Next Token Prediction 预测下一个词，从而压缩数字世界常识；而物理 AI 要依靠 World Model Prediction，预测物理世界下一刻状态和交互逻辑，让模型理解物体运动规律、因果关系和潜在变化。" 因此，世界模型与强化学习，共同构成物理 AI 的两大核心支柱。"

这句话拆开看。数字 AI 的本质，是语言预测。物理 AI 的本质，是现实预测。前车急刹后，后车会不会追尾；雨天路面打滑时，制动距离会延长多少；路边儿童突然冲出，车辆还有没有避让空间——这些都不是文字问题，而是动态世界问题。

Momenta 给出的解法，是 " 世界模型 + 强化学习 "。

Momenta 研发 SVP 夏炎指出，Momenta 的世界模型分三层：第一层是预训练，用海量真实驾驶数据把物理规律、常识与因果关系压缩进模型；第二层是仿真，让模型在虚拟环境中推演行为变化后世界如何演变；第三层是在世界模型中进行强化学习，让系统在接近真实的环境里反复试错、自主优化。

这套结构，本质上是在复制 OpenAI 的成功路径，但训练对象从语言变成现实世界。

先学习常识，再进行后训练，再通过强化学习获得更优决策。曹旭东也提到，仅有常识并不代表是好司机。" 大量的数据里面有好的驾驶行为，但是更多的是不好的驾驶行为。" 因此预训练之后，还需要 Post-Training，" 把它的行为激发或者对齐到人类好的行为上去。"

这几乎就是车圈版的 RLHF。现实司机会急刹、犹豫、加塞、分心，模型若只是模仿人类平均水平，只能成为普通司机。只有通过强化学习筛选更优行为，才可能成为超人类司机。

这也是为什么曹旭东说，自动驾驶是物理 AI 的序章——它是第一个真正需要解决现实世界复杂博弈，又具备规模数据和商业回报的场景。

更重要的是，它还能继续外溢。曹旭东向华尔街见闻透露，Momenta 的 L4 业务不只做 Robotaxi，也做 Robovan，明年还会做 Robotruck。他们相信，" 一个自动驾驶的大模型能够实现所有的自动驾驶垂直应用，并且做得更好。"

这意味着，Momenta 并不想只做一家智驾 Tier1，而是想做一个平台底座。

OpenAI 把同一个模型延伸到搜索、办公、客服、编程；Momenta 则想把同一个驾驶大模型延伸到乘用车、出租车、物流车、卡车。不同场景共享底层能力，不同场景再反哺模型进化。

这是平台公司的典型路径。

当然，物理 AI 的门票极贵。

曹旭东说，实现规模化 L4，累计投入 " 至少是百亿美金 "；通用机器人可能需要 " 几百亿美金到千亿美金 " 级别投入，所以他的结论非常现实：长期只靠融资并不现实，" 一定要有现金流业务来支持物理 AI 的研发。"

这恰恰是 Momenta 相较许多概念型 AI 公司的优势——它已经拥有量产业务、客户订单和真实收入，再把现金流投入下一代模型训练。

很多公司在谈物理 AI 的未来，Momenta 则是在用自动驾驶养出物理 AI 的未来。

十年前，曹旭东在硅谷看到 Fairchild Drive，那条以仙童半导体命名的街道点燃了他的创业念头。他说，希望与所有中国 AI 公司一起，书写属于东方的硅谷传奇。今天看，这个愿景的现实版本或许是：OpenAI 先让机器学会说话，Momenta 想让机器学会在现实世界里行动。

以下是与 Momenta CEO 曹旭东的对话实录：

问：当下全球汽车产业流行反向合资，越来越多的海外车企看重了中国的科技巨头，怎么看待这种新的趋势？

曹旭东：中国的技术现在正在从中国走向世界，整个发展速度非常快的，进入海外的市场，比如说进入欧洲的市场，进入其他的一些市场的时候，给当地用户带来更领先的产品价值，但是另外一方面也会带来一些冲击，比如说冲击当地的公司、当地的就业或者是当地的税收等等。

比较好的一个解决方案就是借鉴中国之前的模式，就是跟中国学习，来做反向合资，反向合资完之后，既让当地享受到了中国高科技的技术和产品很好的用户体验，另外一方面就相当于是中国的技术赋能当地企业，对当地企业带来更多的发展，带来更好的工作机会、更多的就业、更好的税收，是一个共赢的模式。

问：今年车展上有哪些海外的客户和 momenta 交流？过程中有过哪些挑战？

曹旭东：不光是今年，去年的时候我们就已经是全球品牌的共同选择了，在全球最顶尖的品牌里面，像德系的 BBA、大众，日系的丰田、本田、日产，美系的通用、福特，都已经是我们量产的合作客户了。

挑战的话，最常见的挑战，是中国的速度和国际 OEM 的标准，有时候是矛盾和冲突的，但是这个矛盾和冲突主要围绕着客户和用户，以客户和用户的价值为中心去共创，很多时候都能找到更好的创新性的方法，带来更好的结果。

问：数据飞轮在实际量产的过程中，最大的瓶颈是什么？

曹旭东：数据这件事情，它不是单单的数据本身，你可以认为数据它就是矿石，而且是含矿量很低的铁矿石，所以你要把数据真的用起来的话，首先你要把这个贫矿变成富矿。

我举一个例子，在高速上三只小狗排队横穿高速，这样的场景真的是万中无一、万里挑一，你怎么把这个数据给挑出来？它的难度本身就是一个大海捞针的难度，这已经有很高的门槛了，你怎么把贫矿变成富矿，再从富矿变成钢铁，钢铁又变成发动机，发动机最终又装到车上，这才是最终的价值，所以整个的数据飞轮的体系，它是一个体系能力，拥有原始数据，拥有海量的原始数据仅仅是一个价值源头的 10%，剩下的 90% 是来自于这个体系的价值，这是第一个问题。

问：现在有一种说法，数据不难，但是用好数据比较难，Momenta 怎么去用好这些数据？

曹旭东：像我们的大模型，我们可能会分为预训练的阶段和 Post-Training 的阶段，预训练的阶段，海量的来自于我们的量产车，我们现在已经 80 万台车了。海量量产的数据，而且量产的数据包括了大量的长尾数据，通过 World Model Pre-Training 来预训练这个模型。

预训练完这个模型之后有物理常识，但是有物理常识不代表它是一个好司机，因为大量的数据里面有好的驾驶行为，但是更多的是不好的驾驶行为，所以就有一点像数字 AI 里面大模型的训练一样，你通过海量的数据作为输入，它具备了这个世界的常识，但是不代表着它有好的行为，所以你还是需要 Post-Training，通过 Post-Training，把它的行为激发或者对齐到人类好的行为上去，大概会分为这两个环节。

问：今年北京车展上很多的车企都在强调自己的辅助驾驶技术路线的不同，Momenta 的世界模型最大的特点是什么？

曹旭东：更重要的不是单点算法，是架构能力，架构能力已经比单点算法能力更强了，因为一旦涉及到架构一定涉及到取舍，不是所有的创新都能放到同一个架构里面，涉及到架构的话就涉及到取舍，好的架构能够实现更好的积累和更好的合力，架构之上又包含了体系，这个体系包含了数据迭代的体系，包括了训练的体系，也包括了整个迭代的体系和验证的体系，体系之上更多的是组织和文化，就有一点像中国有一句古话，淮南为橘、淮北为枳。

我觉得根本上的企业之间的差距来自于组织和文化和对应的体系的建设，这是有更大的差距的。而具体的单点的算法的话，这个创新当然很重要了，每一代的算法架构的创新，实际上会带来大的进步，但是坦率来说，在中国的环境下，知识的流动和人才流动的速度其实是比较快的，仅仅是单点算法的话，并不存在特别大的壁垒或者差异性，有壁垒的是体系和组织的能力，所以你会发现，可能大家说的都是同样的单点算法的方向，但是最终做出来的效果可能有一代或者两代的差距，背后不是单点算法的差距，背后是体系和组织的差距。

问：Momenta 成立 10 周年过程中的分享？

曹旭东：我觉得还是蛮幸运，一路走来，最重要的还是跟志同道合的人去干真正喜欢的事情，真的会让你的人生生机勃勃，创业过程中有很多的困难和挑战，这些困难和挑战，每一年都会觉得，这一年可能是最难的，过了这一年明年可能会更好，但实际上不是。

如果你不享受发现问题、解决问题的过程，你不享受和你身边志同道合的人共同去探索、共同去面临困难和解决困难的过程，其实创业遇到的这些困难是很难坚持下去的。可能咬着牙坚持一年，咬着牙坚持两年，咬着牙坚持三年，很难坚持十年，所以你一定要找到志同道合的人去干喜欢的事情，去让自己的人生生机勃勃。

问：物理 AI 被英伟达的黄教主带火之后，很多公司都说是物理 AI 的公司，Momenta 在物理 AI 方面是一个什么样的位置？

曹旭东：首先我觉得物理 AI 是大势所趋，首先大家都知道数字 AI 有很大的优势，第一个就是数字 AI 的数据能够快速的呈规模的获得。大家都知道 Open AI 很早的时候，有机器人、有数字 AI，但是后来在聚焦的过程中，阶段性的放弃了机器人，选择了去做 GPT，很重要的原因是机器的数据太难获得了。

而 GPT 需要的是互联网的数据，而互联网的数据本来就已经是非常大规模了。数字 AI 在过去几年实际上是突飞猛进，当然另一方面数字 AI 能够更加低成本、短周期的检验，因为它能够在数字世界上去互动，它的成本是更低的，周期是更短的，就比如说现在 Agent 要调用的话，只需要给一个接口。但是机器人要调用某一个工具的话，它要把机械手造出来，并且要抓取那个工具，并且来使用那个工具，那个难度和复杂度都会大非常多。

但是，我们所在的世界，既有数字的部分，又有物理的部分，而物理的部分可能是更大的一部分，所以当数字世界整个的发展取得了非常大的进展之后，自然而然的很多的成功的经验和方法就要进入物理世界，并且在物理世界中做创新，这也是为什么我觉得现在是物理 AI 的序章刚开始。

再回到我们公司，讲到物理 AI，其实物理 AI 我觉得最核心的，一个是数据闭环，一个是商业闭环，而且这两者是互动的。我有一个经验，这个经验就是，任何一个人工智能的应用，一旦接近人类的水平，就会在很短的时间大幅超过人类的水平，这背后的逻辑是什么呢？

仅仅是我的一个观察，就比如说你看 Alpha Go 也好，或者过去的人脸识别也好，前面经过了一个非常漫长的爬坡期去接近人，接近人可能花了十年、二十年很长的时间，但是超越人，或者大幅地超越人，有可能就发生在 1、2 年，2、3 年的时间，一开始有这个观察之后，我就在想背后的原因到底是什么？

后来就觉得最关键的还是数据闭环和商业闭环，而且这两者之间是正反馈的，因为先有了数据闭环，然后才有足够好的体验，这个足够好的体验一旦达到了接近人类的水平或者超过人类的水平的时候，就能够实现爆发式的商业化。

而这个爆发式的商业化之后，又会带来数据爆发式的增长，而数据爆发式的增长又会带来模型能力进一步的爆发式增长，最终能够互相促进、互相激发，形成强烈的正反馈，而强烈的正反馈使得在很短的时间内就能够实现十倍、百倍甚至千倍人类的经历。

我们的判断就是自动驾驶进入到了这个阶段，机器人还需要一段时间，这是第一点。所以自动驾驶是物理 AI 的序章，因为它最先实现了规模的数据闭环和规模的商业闭环。

第二点就是，你看自动驾驶要实现规模化的 L4，我的判断累计的投入至少是百亿美金，而且有可能还是创业公司的研发效率，如果你是大公司的话不只是百亿美金，可能需要几百亿美金。

但是机器人呢？通用的机器人它需要多少钱？我的判断可能是几百亿美金到千亿美金这个级别，有可能还是创业公司的研发效率。所以我的判断就是，物理 AI 它是需要有门票的，而这个门票就是你需要有现金流的业务，虽然现在整个中国具身智能的资本市场是非常活跃的，但是长期来看，要靠投资，要靠融资，追踪做成通用的物理 AI，或者物理世界的 AGI 是不现实的，而是一定要有现金流业务，而这个现金流业务可以是自动驾驶，也可以是物理 AI 某一个方向，虽然我现在没有想到，其他的某一个方向能够更早地实现规模化的数据闭环和商业闭环，或者其他来自于数字 AI 的现金流业务。无论如何一定要有一个现金流业务来支持物理 AI 的研发。

问：今年 L4 业务的进度如何？Momenta 做 Robotaxi 的优势？

曹旭东：我们公司的 L4 并不是只做 Robotaxi，也会做 Robovan，就是物流。因为我们十年的愿景里面，十年物流和出行的效率翻倍，实际上物流是放在更前面的，出行放到后面，明年我们也会做 Robotruck，虽然我们今年不会做，但是我们明年会做。

背后的底层逻辑是什么呢？还是回到今天提到的 Jeff Hawkins 那一本书里面，它讲到了一个核心概念就是一个神经网、一个大模型能够实现通用 AI 的能力，具体落地到自动驾驶这个领域的话，我们相信的是什么呢？我们相信的是一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用，并且做得更好。

而且这件事情我们已经在 Robotaxi、Robovan 和乘用车上成功的验证了，并且取得了很好的效果。这个带来的价值是什么呢？带来的价值就是你在每一个 vertical 的研发成本会大幅度的降低。而每个应用场景，每个垂直应用场景的经验和数据，又可以汇总和吸收到这个大模型里面，使得每个垂直领域做得更好，这实际上就是一个平台优势。

这个就有一点像十年前或者十几年前整个的互联网行业，有垂直电商，也有平台电商，但是最终胜出的都是平台电商，垂直电商可能现在都不存在了，很重要的原因就是这个平台效应带来的。我们的判断在自动驾驶在大模型领域也存在着很强的这样的平台效益，一个大模型能够实现所有的垂直领域，并且能够做得更好，这样每个垂直领域的成本更低，效果会更好。

问：2030 年会不会迎来智驾的终局？

曹旭东：整个智驾或者整个自动驾驶它有非常强的规模效应和先发优势，它的效应会比芯片行业更强，所以你回顾历史可以看到，这个芯片行业，不管是 PC 时代的芯片，实际上全球就只有两家，手机芯片的时代全球也就只有两家，高通和 MTK。

自动驾驶，因为它是软件，它的边际成本是零，所以它的规模效应更强，它的规模效应除了成本上的规模效应，还有体验上提升的规模效应。

另一方面，面向主机厂有特别强的先发优势，因为主机厂很多业务都是敲门敲三年，从你见到客户到拿下合同是 3 年，如果是国际 OEM 的话，可能要敲门敲 5-7 年。

比如说我们和奔驰的合作，2017 年奔驰就投资了我们，而且当时特别巧，Ola K ä llenius（康林松）现在奔驰的董事长他觉得这个公司特别有活力选择投资我们，但是我们跟奔驰的第一个量产项目上市是 2025 年的后半年，经历了整整 8 年的时间，其实已经加速了。

我当时问了一个清华的师兄，那个清华的师兄告诉我说，你们跟奔驰合作量产至少需要十年。我们中间 2017 年到 2020 年是 POC，2020 年到 2022 年是 Pre SOP，2022 年到 2024 年是小批量的量产开发，到了 2024 年才拿到了奔驰所有的电车和油车的业务，2025 年底的时候才真正的量产。

所以举一个例子可以感受到，汽车行业敲门敲 3 年，国内的 OEM 敲门敲 3 年，海外的 OEM 敲门敲 5-7 年，到底是一个什么样的原因？因为这个行业有非常强的规模效应和非常强的先发优势，所以我还是维持我原来的判断，中国也就 2-3 家，全球也就 3-4 家，会非常快速地收敛。