经济观察报 2小时前
物理AI,Momenta开场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Momenta,这家在行业内被称为 " 物理 AI 第一股 " 的企业,即将登陆港交所。

与之相伴的,是一个官方反复提及的技术概念——世界模型。它被描述为 " 物理 AI 时代的基座模型 ",被认为是激发物理 AI"GPT 时刻 " 的关键突破口。

这听起来宏大而令人振奋。

但面对这类 " 某某时刻 "" 基座模型 "" 范式革命 " 的叙事时,一些人可能会习惯性地追问几个更朴素的问题。

第一,所谓的 " 世界模型 ",究竟是技术演进的全新成果,还是一个被精心包装的融资话术?

第二," 基座 " 这个词在 AI 领域已被广泛使用。如果说大语言模型的基座是海量文本,那么物理 AI 的基座凭什么是一个能预测视频下一帧的模型?它真的承载得起 " 物理世界的常识 " 这样一个深刻命题吗?

第三,我们真正在谈论的,究竟是技术本身,还是技术背后更加复杂的商业逻辑?

从这几个问题来看,Momenta IPO 并非一个简单的融资事件。Momenta 是 " 物理 AI" 这条赛道上,第一个接受公开资本市场检验的玩家。市场将用真金白银投票的,既是 Momenta 过去几年的发展成果,更是 " 世界模型作为物理 AI 基座 " 这一宏大叙事的未来预期。

模型 " 懂物理 ",还有 " 练兵场 " 和 " 教练 "

先正面回答一个问题:什么是世界模型?它和此前的 AI 模型,到底有什么区别?

用一个最简单的类比。数字 AI 时代,ChatGPT 的伟大突破在于,它让机器掌握了语言的规律。它知道一句话怎么接下一句,知道上下文之间的逻辑关系,知道常识性的知识图谱,它压缩的是 " 文本世界的规律 "。

物理 AI 时代需要的,则是一个能压缩 " 物理世界规律 " 的模型。它需要知道:一个球被踢出去会沿着抛物线飞行;一辆车急刹车时车身会前倾;两辆车在交叉路口相遇,谁应该让谁。这些在人类看来甚至不需要思考的常识,对于 AI 而言,恰恰是最难习得的部分。

世界模型要做的事情,就是把物理世界的规律——重力、惯性、因果、遮挡关系、运动轨迹——压缩进一个神经网络里,让模型 " 懂得 " 物理世界是如何运转的。

这个目标很清晰,但实现路径极其艰难。为什么?因为物理世界的数据,获取太难了。

文本数据唾手可得。互联网上有数以万亿计的网页、书籍、论文,这些是人类知识的海量数字化遗产。但物理世界的数据,例如一辆车在暴雨中行驶的视频、一个行人在十字路口突然折返的瞬间、一只流浪猫从路边窜出的场景,这些数据不仅难以获取,而且无法通过 " 爬虫 " 来批量采集。

更难的是 " 测试 "。一个语言模型写错了答案,用户可以立刻发现并纠正。但一个自动驾驶模型如果判断失误,后果可能是真实的碰撞事故。物理 AI 的检验成本,比数字 AI 高出几个数量级。

正因为这个原因,世界模型长期停留在学术论文和实验室 Demo 阶段。直到最近,随着海量真实驾驶数据的积累、算力成本的下降、以及模型架构的演进,它才真正有了商业化的可能。

而 Momenta R7 世界模型的架构,被设计成了三层。每一层都在回应上述挑战中的某一个环节。

第一层是 World Model Pre-Training,也就是让模型 " 懂物理 "。

这一层的任务,是把海量真实驾驶数据中的物理常识与因果关系,压缩进基座模型。通俗地说,就是让模型看足够多的真实世界视频,先学懂物理。

第二层是 World Model Simulation,也就是让模型拥有 " 练兵场 "。

模型光 " 懂物理 " 还不够,它需要在一个安全的环境里反复验证自己的决策。这就引出了世界模型的第二层能力:闭环仿真。

传统仿真有一个致命问题:渲染生成的世界和真实世界之间存在巨大的 "Sim-to-Real Gap"。你在游戏引擎里建一个十字路口,那是一个理想的、干净的、物理规则简化的世界。但真实的十字路口有坑洼的路面、有褪色的标线、有随意停靠的货车、有打伞的行人。模型在仿真里练得再好,一上路可能还是 " 懵 "。

Momenta R7 的做法是:利用从真实数据中学习生成的世界进行仿真。这意味着,仿真环境中的每一个场景元素,从每一棵树、每一辆车的行驶轨迹到每一个行人的动作,都来源于真实世界的采样,而非程序员想当然的预设。

更关键的是,Momenta 通过实车和仿真的一致性来做对齐和校准,拥有明确可参考的 benchmark,从而减少仿真与真实世界之间的差异性。

这套机制的价值,用一个数字就能说明:效率比传统实车路测提升了上万倍。换句话说,一个在真实道路上需要跑数十年才能遇到的极端场景组合,在 R7 的仿真环境里可能只需要几个小时就能遍历一遍。

第三层是 World Model Reinforcement Learning,也就是让模型拥有 " 教练 "。

懂了物理、有了练兵场,接下来是 " 学会开车 "。这一层依赖的是强化学习。强化学习的本质是奖惩机制:模型做出正确决策就奖励,做出错误决策就惩罚。通过反复试错,模型逐步学会在复杂环境中输出最优策略。

Momenta 在这一层的优势有两方面。

一是拥有真实世界里大量用户的反馈闭环。这意味着奖惩信号的来源,不是仿真环境里的模拟打分,而是真实道路上数十万用户的真实驾驶数据。

二是拥有更多的黄金数据,尤其是长尾场景数据。所谓 " 长尾场景 ",就是那些发生概率极低、但一旦发生就极其危险的边缘情况。这些数据是强化学习中最宝贵的 " 教材 "。

说到这里,一个追问不可避免:这套三层架构,与业内其他公司的世界模型方案,区别到底在哪?

答案在于 " 预训练 " 这个环节的定位。

业内普遍将世界模型用作仿真工具,也就是,先训练一个世界模型,然后用它来生成数据,再拿这些数据去训练或测试主模型。在这个路径里,世界模型是一个 " 辅助工具 ",相当于考前给学生发了几套模拟试卷。

Momenta 则是将世界模型直接应用于 " 端到端基座模型预训练 "。它不是给学生发模拟卷,而是直接重塑了学生的大脑认知结构。模型从一开始就建立在 " 懂得物理世界规律 " 的基座之上,再通过仿真和强化学习进行微调。

这好比两个学生准备物理竞赛。一个学生通过大量刷题来积累经验;另一个学生先系统学习了牛顿力学、热力学、电磁学的全部理论框架,再通过做题来验证和巩固。前者的上限取决于题库的覆盖范围;后者的上限取决于物理定律本身,而物理定律是普适的、无界的。

Momenta R7 选择的是后一条路。

但这并不是说前一条路就错了。只是两者对世界模型的定位完全不同,由此带来的系统上限和迭代速度也截然不同。Momenta 认为,这种底层应用代差,让世界模型成为了一个超级 " 放大器 ",使系统的整体产品性能和上限实现了 10 到 100 倍的代际跃升。

当然,这个 "10 到 100 倍 " 的实际效果,将取决于接下来几年的量产交付数据和用户反馈。但至少在逻辑上,这条路径是自洽的:用真实数据训练基座,用真实数据校准仿真,用真实用户反馈强化学习,每一个环节都锚定 " 真实 " 二字。

不仅是技术,更是两大 "Scaling" 的飞轮

一个值得追问的问题是:如果世界模型在技术逻辑上如此自洽,那为什么是 Momenta 率先把它做到量产上车,而不是其他公司?

2022 年,Momenta 完成首个 10 万台量产交付,用了 24 个月。而到了 2026 年,这个数字被压缩到不到 40 天。24 个月到 40 天,这中间的跨度,堪称一种指数级的进化。

这种进化的驱动力,到底是什么?

一个常见的解释是 " 技术突破 "。这肯定没错。R7 世界模型的三层架构、端到端基座预训练、强化学习闭环,这些技术层面的演进,确实是产品性能跃升的直接原因。

招股书显示,2025 全年,Momenta 研发投入为 18.69 亿元,占其年度收入的 77.5%,近三年累计研发投入达 46.6 亿元。截至 2025 年底,公司拥有研发人员 1157 名,研发人员占比近 82%,超过三分之二拥有硕士及以上学历。

但是,如果我们只看到技术,就忽略了更底层的两个变量。

这两个变量,官方把它们总结为数据 Scaling 和商业 Scaling。而 Momenta 真正的壁垒,在于自身同时跑通了这两个 Scaling,并且形成了正反馈。

先说数据。

世界模型需要海量真实物理交互数据来预训练。这个 " 海量 " 的下限是多少?行业内没有统一标准,但一个共识正在形成:单纯靠仿真渲染生成的数据,无法替代真实道路上的物理反馈。因为仿真是对物理规律的 " 近似 ",而真实道路是物理规律本身的 " 全集 "。一个在近似中训练出的模型,一旦遇到近似之外的边缘情况,就会暴露出认知盲区。

Momenta 的数据来源,是它搭载在量产车上的 L2++ 辅助驾驶系统。这些车每天都在真实道路上行驶,持续采集各类驾驶场景。截至 2026 年,Momenta 积累了 120+ 亿公里的实车里程,从中提炼出了 1 亿段 " 黄金数据 "。所谓 " 黄金数据 ",指的是包含特定场景价值的高质量片段,比如复杂路口、恶劣天气、罕见障碍物、非常规驾驶行为等。

这个数字的意义,可以从两个维度来理解。

横向看,120 亿公里是什么概念?地球到太阳的平均距离约为 1.5 亿公里。120 亿公里相当于地球到太阳往返 40 次。这个体量的真实道路数据,是无法在短时间内通过任何方式 " 突击 " 采集的。每一公里都对应着一辆真实量产车的真实行驶时间。

纵向看,数据积累的速度在加快。Momenta 2022 年首个 10 万台量产耗时 24 个月,而今最快不到 40 天即可完成 10 万台交付。这意味着,Momenta 数据采集的 " 管道 " 正在迅速变粗。交付量越大,回传的数据越多;数据越多,模型迭代越快;模型越好,交付量越大。这是一个典型的正反馈循环。

曹旭东对此有一个判断:" 整个智驾或者整个自动驾驶它有非常强的规模效应和先发优势,它的效应会比芯片行业更强 …… 自动驾驶,因为它是软件,它的边际成本是零,所以它的规模效应更强,它的规模效应除了成本上的规模效应,还有体验上提升的规模效应。"

如果把这个判断放到数据 Scaling 的语境里,意思就很清楚了:当你的数据量是竞争对手的 10 倍时,你的模型能力可能不是竞争对手的 2 倍或 3 倍,而是代际层面的碾压。因为数据规模本身就是一个 " 门槛型 " 的竞争要素,它不像算法可以快速复制,也不像人才可以用高薪挖角。

但数据 Scaling 有一个前提:你得先有足够多的车在路上跑。而让车在路上跑的前提,是你得有人愿意买单。

这就是商业 Scaling 的意义。

曹旭东提到了一个概念叫 " 物理 AI 的门票 ":要实现通用物理 AI,而且一定要有大量现金流业务。

这句话点出了物理 AI 领域一个极其现实的困境。从数据采集、清洗、标注,到模型训练、验证、部署,世界模型的研发每一个环节都需要巨额的资金投入。没有现金流业务支撑,连 " 入场 " 的资格都没有。

Momenta 的现金流业务,是它的 L2++ 量产辅助驾驶解决方案。根据 2026 年 6 月 CIC 灼识咨询发布的《自动驾驶行业蓝皮书》,2025 年 3 月至 2026 年 2 月,中国第三方城市 NOA 供应商市场中,Momenta 市占率达 65%,位居行业首位。Momenta 的客户已覆盖国内全部主流乘用车企业,全球排名前 10 大车企中已有 9 家与其开展合作。

招股书显示,2023 年至 2025 年,Momenta 营业收入从 7.43 亿元增长至 24.13 亿元,三年翻三倍,年均复合增长率超 80%。截至 2025 年底,公司现金储备超 100 亿元。

这些数字背后的商业含义是,L2++ 业务不仅创造了营收,更重要的是,它验证了 Momenta 产品的商业化能力。车企愿意为这套方案付费,说明它在成本、性能、交付效率上具备竞争力。而这种竞争力,又会反过来吸引更多车企采用,从而进一步扩大数据采集的规模。

商业 Scaling 和数据 Scaling 之间的互动关系,可以这样理解:L2++ 量产车越多→采集的数据越多→模型迭代越快→产品体验越好→更多车企采用 L2++ 方案→量产车更多→数据更多。

这是一个双循环。商业 Scaling 解决的是 " 谁为研发买单 " 的问题,数据 Scaling 解决的是 " 模型如何进化 " 的问题。两者缺一不可。

从商业化角度看,如果聚焦自动驾驶领域,曹旭东判断:" 最终全球 3 到 4 家供应商会胜出。"

如果这个判断成立,那么 Momenta 当前所处的阶段,就是那 3 到 4 家席位竞争中的关键卡位期。它已经拿到了入场券:120 亿公里数据、65% 的市占率、前 10 大车企中 9 家的合作 ……

"2017 年奔驰就投资了我们,但我们跟奔驰的第一个量产项目上市是 2025 年的后半年,经历了整整 8 年的时间。2024 年才拿到了奔驰所有的电车和油车的业务。" 曹旭东曾透露。

8 年时间,意味着什么?意味着从接触到合作、从 POC 到 Pre SOP、从 Pre SOP 到小批量量产、从小批量到全面量产,每一个环节都是一道门槛。

一旦跨过这些门槛,客户不会轻易更换供应商,因为切换成本极高。而这种 " 锁定效应 " 叠加规模效应,会使得领先者的优势持续放大,后来者追赶的空间持续收窄。

当然,很多投资者早已意识到 Momenta 的这种稀缺性。Momenta 的股东阵容极其豪华,汇聚了全球最核心的产业和科技战略投资人,以及全球顶级财务投资人。

产业资本囊括了全球汽车产业链的核心玩家,包括:上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等 7 家全球顶级车企,以及博世、德赛西威、立讯精密等头部产业链合作伙伴,和 Uber、Grab、Stone Venture 等 Robo 合作伙伴。科技巨头则包括腾讯、阿里云、蚂蚁集团、京东等。

财务投资人更是覆盖了淡马锡、IDG、阿曼投资局、亦庄国投、Granite Asia、顺为、蔚来资本、凯辉基金、云锋基金、蓝湖资本、创新工场、真格基金、鼎晖投资、高榕创投、高成资本、众为资本、愉悦资本、钟鼎资本、盈峰资本、招银国际、华泰创新资本、混沌资本、春华资本、大湾区基金、国新基金、光合创投、九合创投、锦秋基金等全球最顶尖投资机构。

超豪华、多元化的股东阵营,不仅为 Momenta 提供了战略和资本支持,还从业务协同、用户增长和全球化布局等方面助力了 Momenta 高速增长。

" 一个模型打通全场景 " 的估值逻辑

如果只停留在 " 技术如何领先 " 的层面,就还没触及 Momenta 最核心的价值命题。真正的命题是:这套底层能力,能生长出多大的估值空间?

曹旭东在谈及公司 L4 布局时,提到了 Jeff Hawkins 的一个核心概念:一个神经网络、一个大模型,能够实现通用 AI 的能力。曹旭东将这个理念平移到了自动驾驶领域,即一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用,并且做得更好。

这句话听起来有些抽象。但曹旭东紧接着说了一句更具体的话:" 这件事情我们已在 Robotaxi、Robovan 和乘用车上成功验证了,并且取得了很好的效果。"

验证了什么?验证了 Momenta 所说的" 一个模型打通全场景 "不是一张 PPT 上的蓝图,而是一个已在多条业务线上跑通的极简架构。乘用车量产、Robotaxi、Robovan 这三个看似独立的自动驾驶场景,共享同一套底层模型架构。而明年,Robotruck 也将加入这个序列。

这背后的商业逻辑,值得拆开来看。

先罗列一下这四块业务的体量。公开数据显示,到 2030 年,全球 Robotaxi 市场规模预计约 818 亿美元,中国市场约 381 亿美元;Robovan 全球市场规模约 850 亿美元,中国市场约 535 亿美元;Robotruck 全球市场规模约 330 亿美元,中国市场约 165 亿美元。

四块业务对应的市场空间,合计超过 2000 亿美元。但 Momenta 的叙事逻辑,不是 " 同时分别做四个生意 "。如果是那样,它只是一家业务线分散的供应商。Momenta 的叙事是 " 用同一个大脑做四个生意 "。这个差异,决定了估值的量级。

传统模式下,做 Robotaxi 的公司做不了 Robovan,做 Robovan 的做不了乘用车 L2++。因为每一条业务线都需要独立的传感器方案、独立的算法团队、独立的数据采集体系、独立的验证流程。每个垂直场景的 "know-how" 都深埋在各自的组织和经验里,无法简单复制。结果就是,每一个新场景的开拓,都意味着从零到一的重复投入。

Momenta 的做法完全不同。它的乘用车量产系统已在 90 万台量产车上跑着,积累了 120+ 亿公里真实数据。

这些数据中包含了各种道路场景(城市道路、高速公路、乡村小路、停车场),这些场景与 Robotaxi、Robovan、Robotruck 所面对的道路环境,本质上是同一套物理世界。一个理解了城市道路复杂交通流的世界模型,稍加微调就能适配物流场景的路线规划。一个掌握了高速公路长距离巡航能力的模型,自然能延伸至 Robotruck 的干线运输。

值得一提的是,当一家公司准备上市时,资本市场会本能地寻找一个对标物。所以 "XX 领域的特斯拉 "" 中国的某某某 " 等尽管粗糙,却是很多科技公司在 IPO 招股书之外必备的身份标签。

Momenta 面临同样的情况。它的业务横跨乘用车 L2++、Robotaxi、Robovan、Robotruck,技术底座是 " 世界模型 ",商业模式是 " 一个模型打通全场景 "。这套叙事宏大而自洽,但问题是,它到底像谁?

最容易想到的对标,是 Anthropic,二者同样拥有强大的基座模型,同样先在一个高价值垂直场景实现商业闭环,再向其他场景泛化扩张。

该逻辑指向的终局:曹旭东称之为 " 平台级系统提供商 ",而非单一场景的解决方案供应商。这个定位的关键不在于当前营收的规模,而在于 " 一个模型打通全场景 " 的架构所带来的持续边际成本递减和跨场景协同效应。

Momenta 的" 一个模型打通全场景 ",在自动驾驶领域复制了同样的平台效应。乘用车量产的数据和经验,可以直接帮助 Robotaxi 优化城市复杂路口的决策;Robotaxi 在 L4 级无人驾驶中积累的长尾场景处理能力,可以反哺乘用车 L2++ 的安全冗余;Robovan 和 Robotruck 在物流场景中的路径规划经验,又可以提升乘用车在高速场景的续航效率。

这形成了一个跨场景的正反馈循环。场景越多,大模型见过的 " 物理世界 " 就越丰富;大模型越强大,每个场景的落地成本就越低、效果就越好。

这种边际成本的骤降效应,是 Momenta 估值逻辑中一个容易被忽视但至关重要的支点。华尔街对平台型公司的估值溢价,从来不来自当前营收的简单乘数,而来自新增业务线时那一根几乎水平的边际成本曲线。

总之,Momenta 的估值逻辑,既不能用传统的汽车零部件供应商来套,也不能简单地用 AI 软件公司来估。它更像一个正在被建造的物理 AI 平台,底层是理解物理世界的世界模型,中间是跨场景复用的 All-in-One 架构,上层是正在逐步打开的一个个垂直应用场景。平台的每一层,都在为下一层的扩展降低边际成本。

至于这个平台的终局价值,那取决于它最终能覆盖多少个 " 需要与物理世界交互 " 的场景。乘用车、Robotaxi、Robovan、Robotruck 是已被确认的前四个。

至于机器人,曹旭东判断 " 还需要一段时间 "。不过,机器人与汽车的底层逻辑是相通的。毕竟,一个掌握了物理世界普遍规律的模型,理论上可以泛化到任何需要与物理世界交互的载体上。

凯辉基金创始人及董事长蔡明泼表示,作为坚定的长期主义者,凯辉很荣幸能够在自动驾驶最跌宕起伏的十年里,持续陪伴 Momenta 一路成长。我们见证了团队用极强的战略定力和极致的研发能力,逐步将 " 世界模型 " 打磨成物理 AI 商业护城河。自动驾驶是构建未来智能社会的关键路径,我们期待 Momenta 继续依托其技术积累、量产能力与全球生态,在 AI 技术出海浪潮中以 " 中国方案 " 推动全球物理 AI 产业的进步。

(作者 冯科翰)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论