经纬领投2000万美元，Aether AI让机器人学会举一反三

用机器的方式，抵达人类未曾到达的因果彼岸。

作者｜刘杨楠

编辑｜栗子

过去半年，从硅谷到中关村，许多人都试图通过世界模型在物理世界复刻 ChatGPT 的传奇。可物理世界有太多语言无法描述的隐秘变量，例如摩擦力、温度、光照等等，无不影响着模型对现实世界的理解程度。光靠堆语言或视频数据和算力，已经不够用了。

而一笔刚刚落定的融资，将外界目光引向了一位来自加州大学圣地亚哥分校的学者。

6 月 18 日，Aether AI 宣布完成约 2000 万美元首轮融资，由经纬创投领投，英诺基金、SWC Global、九合创投联合参投。这家成立不久的 AI 公司所押注的方向，正是黄碧薇博士在 CVPR 2026 上抛出的答案——因果世界模型。

黄碧薇博士（Prof. Biwei Huang），图片来源：Aether AI

黄碧薇博士（Prof. Biwei Huang）是加州大学圣地亚哥分校（UCSD）助理教授、Aether AI 创始人。她有一个看似并不合群的观察，认为今天所有主流大模型，本质上都只是在学相关性，而非因果性，这会让模型永远停留在数据的表层关联里，无法真正理解世界运行的逻辑。

这个判断建立在她过往十余年研究基础上，从上海中科院神经所到德国马普所（Max Planck Institute）、图宾根大学，最终进入该领域的开创地 CMU，师从多位奠基人 Kun Zhang, Clark Glymour, Peter Spirtes，和 Bernhard Sch ö lkopf。由此，她的研究路径几乎贯穿了因果 AI 从欧洲到美国的完整传承。

博士毕业那年，黄碧薇迎面撞上了 ChatGPT 掀起的 LLM 浪潮。尽管身处 AI 前沿研究多年，她对 LLM 并非一无所知，但 ChatGPT 在自然语言任务上的惊人效果，还是给她带来了巨大冲击。" 方法明明非常简单粗暴，但效果确实很好。" 她回忆道，" 那时候我才意识到，即使在小数据上挖尽所有信息，也比不上在大数据上做一次简单的挖掘。"

冲击过后，她迅速冷静，开始重新审视前行方向。

黄碧薇系统回望过去 30 年的 AI 演变，从中拎出两条清晰的主线：一是模型规模从小到大的跃迁，二是抽象深度从相关性到因果性的递进。

具体来看，90 年代初，基于相关性的小模型研究成为主流；2010 年前后，她和 CMU 的导师们用小模型的成熟算法将因果发现推向了新的高度，开创了以因果为核心的小模型时代；而 ChatGPT 的横空出世，则验证了 " 大数据 + 大模型 " 在相关性路径上的工程可行性。

她敏锐发现，模型规模和抽象深度并非天然绑定。相关性小模型时代积累的算法方法论，恰恰可以为她们的因果发现研究提供扎实的工具箱。如今在大模型时代，她能否将自己和导师的历史成就再推上一个新台阶？

黄碧薇决定顺势而为。博士毕业后，她加入 UCSD 担任助理教授，开启独立研究。她的目标很明确：把 LLM 的 Scaling law 和小模型时代几近完美的因果算法相结合，让模型在保持规模的同时，真正学到物理世界的因果结构。

这一次，挡在黄碧薇面前的是一片尚未开垦的荒原，她身后站着无数曾在前方引路的 AI 先驱们，推着她在因果 AI 和 LLM 交界的空白地带，开辟一个全新的战场。

1." 结构即智能 "

Scaling Law 的裂痕，不止于表层的算力和数据瓶颈，更指向一个根本质疑：LLM 的智能，到底是理解世界，还是机械记忆？

早在 2024 年，哈佛研究员 Keyon Vafa 的一篇论文对此已有印证。他通过实验发现，AI 在学习数百万条导航指令后，能画出准确率高达 99% 的曼哈顿路线，地图上却凭空多出一条穿中央公园的路—— Vafa 指出，这是由于 AI 只是死记硬背零散路线的经验法则，并未对城市道路形成真正的认知地图。

这个结果直指今天 LLM 的本质困境：它能复现训练语料中的因果表述，却并不真正理解因果，本质上只是 " 鹦鹉学舌 "。

根源在于 Transformer 和 Scaling Law 的内在局限。

Transformer 的核心是注意力机制，学习的本质是 token 共现概率。它能预测 A 之后大概率是 B，却学不会 " 因为 A，所以 B" 背后的因果关系。按图灵奖得主 Judea Pearl 的 " 因果阶梯 " 划分，模型始终被锁在最底层的 " 关联 " 层级，无法触及 " 干预 " 与 " 反事实 "。

那为什么 LLM 有时会表现出 " 懂得因果 " 的假象？Scaling Law 起了关键作用。训练语料中大量 " 因为 / 所以 " 句式被模型靠规模记忆下来，但对于语料中未明确点明的因果关系，模型自然无从学习。

此前一项研究则表明，GPT-4 在判断国际象棋合法开局时准确率接近 90%，但当规则被轻微修改，将骑士与主教交换初始位置——这个反事实情景在训练数据中极为罕见，模型准确率便骤降至约 54%，几乎等于随机猜测。

这恰恰暴露了 Scaling Law 背后 " 压缩即智能 " 理念的短板。黄碧薇并不否认这一理论对 LLM 的里程碑式引导，但在她看来，更准确的表述应是：结构即智能。

LLM 的黑箱式压缩记住了海量 token 的共现模式，却没能把知识组织成可迁移、可干预的因果结构。一旦规则改变，便无能为力。

这种局限也直接导致了 LLM 的 " 幻觉 "。比如，当 " 西雅图 " 和 " 华盛顿州 " 在语料中高频共现，GPT-3 就倾向于把西雅图当作首府，这是相关性学习的典型陷阱。

相反，因果模型则理解数据背后的生成机制，知道答案是如何推导出来的，因此具备更强的可控性和可解释性。

因此，黄碧薇认为，只有经过结构化组织的信息，才能真正具备信息量，进而产生智能。换句话说，结构化的压缩，才是智能。

这一判断正在成为越来越多人的共识。DeepSeek-R1 仅靠强化学习就让模型自行 " 顿悟 " 出因果推理能力；去年 Ilya Sutskever 公开断言 Scaling Law 即将触顶，AI 行业必须从 " 资源竞赛 " 重返 " 范式创新 "。

种种信号指向同一个事实。智能的边界，正从数据规模转向因果理解与泛化深度。

在「甲子光年」看来，这意味着 AI 竞争的核心逻辑正在发生根本性的位移。

过去三年，大模型赛道比拼的是 " 谁能拿到更多的数据、买到更多的显卡 "。而在具身智能、科学发现等更复杂的领域，谁能率先构建出因果结构，让模型真正理解物理世界，谁就能在下一代 AI 竞赛中抢占身位。

2. 拆解 Aether AI 的 " 因果大脑 "

就像 LLM 是 " 压缩即智能 " 的代表路线一样，" 结构即智能 " 也需要一个具体的模型范式来完成从理论到产业的跨越。

目前，随着越来越多企业开始向世界模型靠拢，" 世界模型 " 的概念边界也越发模糊。视频生成模型、3D 重建模型，甚至连能聊天的语言模型都被包装成世界模型。

回归技术本质，黄碧薇的答案是因果世界模型，她认为，实现真正的世界模型道路，至少需要跨越三个台阶：表象生成、空间建模和因果想象。

第一层是表象生成，以 Sora 为代表，画面逼真但经不起物理推敲，杯子碎了可以复原，手穿过桌子不会变形。

第二层是空间建模，以李飞飞提出的空间智能为代表。它进一步理解三维空间、物体位置和几何关系，知道 " 杯子在桌子上 "，但如果缺少时间演化和动作后果预测，仍未必知道 " 推一下杯子会掉下去 "。

第三层是因果想象。模型只有学到物理世界背后的因果结构，才能预测干预后的结果，并进行反事实推理。这也是机器人走向开放环境、长程任务和自主泛化的关键。

在这个递推框架之外，Yann LeCun 提出的 JEPA 是另一条值得关注的路线。JEPA 去掉了像素空间的解码器，通过过滤高频噪声来缩小模型尺寸。

黄碧薇认可这个思路的价值，但指出了两个问题。

一方面，去掉解码器虽然过滤了噪声，也同时丢掉了机械手与物体接触的瞬间、摩擦力变化这类非常细节的信息。这些细节对视频生成无关紧要，但对机器人操作却是精确控制的关键。另一方面，JEPA 没有在隐空间里显式学习因果变量和因果结构。它跳过了渲染，直接进入某种抽象表征，但离真正的 " 想象 " 还有距离。

这几条路线的共同问题是，都没有真正触及物理世界的因果机制。

于是，黄碧薇将传统因果发现的方法论，包括从观测数据中自动抽取隐变量、识别因果方向、学习因果动力学，与大模型的海量数据处理能力结合起来，打造了让模型真正具备 " 想象 " 能力的因果世界模型新范式。

她认为，因果世界模型必须具备三个特征。

一是结构化隐表征，让模型从视频和传感器信号里学习背后的因果变量，而不是停留在 token 层面。在黄碧薇看来，观测到的变量往往不是真正的因果变量，必须深入到隐空间去学习。

二是因果结构，理解这些因果变量之间是怎么相互影响的。第一层回答 " 有哪些重要的东西 "，第二层回答 " 它们之间是什么关系 "。

三是因果动力学，掌握系统如何随时间演化，以及动作如何驱动状态变化。学到了真正的因果变量、因果结构和动力学，预测下一个状态就是自然而然的结果。

这套框架的增益直接体现在模型的泛化性和数据效率上。" 假设有 100 个变量，传统方法在新环境中需要重新估计全部联合分布，但从因果角度看，可能只有两个变量的因果机制发生了变化，只需少量数据就能更新相应参数。" 黄碧薇解释道。

这正是因果世界模型能用更高数据效率实现更强泛化性的根源。黄碧薇透露，团队目前仅用 50 条数据，就让一些开源模型在特定操作任务上的表现大幅提升。

但更高的数据效率并不意味着因果世界模型的训练不需要大数据。恰恰相反，因果世界模型同样建立在海量数据之上，只是处理方式不同。

Aether AI 的因果世界模型无需人工标注因果结构，而是采用 self-supervised learning 和课程学习的方式，先喂简单干净的数据，再逐步增加难度，让光照、场景等因素自然变化。核心逻辑是在因果结构与某种统计性质之间建立一对一的映射，使模型能从统计性质反推因果结构，实现自监督学习。

然而，一个完整的智能系统不能只有世界模型。要完成复杂任务，必须有一个高层的智能体系统负责规划与决策，同时底层架构也需要从根上支持因果推理。

基于这一思路，Aether AI 搭建了一个四层架构的 " 因果大脑 "。

第一层是因果驱动的智能体系统，具备因果规划、归因、记忆，能反思上次任务为何失败，并据此调整策略。

第二层是因果世界模型。作为系统的认知核心，这一层负责理解物理世界的运行规律。它接收上层传来的子任务，在内部模拟 " 如果这样做，世界会怎样变化 "，然后生成精确的任务指令，驱动上层的智能体系统。

第三层是模块化架构，目标是实现对人脑功能分区的工程模拟。

黄碧薇指出，当前混合专家模型（MoE）有一个普遍问题，就是专家模型之间功能高度重叠，往往只有一两个在真正干活，没有实现功能解耦。Aether AI 希望实现像乐高积木一样功能独立的模块化架构，不同模块可拆可换，不互相纠缠。

第四层是Causation Transformer，在保持其可扩展性的前提下，加入对时间延迟、瞬时关系以及隐因子影响的建模能力，让底层从学习 " 相关性 " 升级为学习 " 因果性 "。

这四层并非同步实现。黄碧薇的推进策略是，先在一二层跑通因果泛化，再逐步推进至三四层，后者所需的算力规模将提升一个数量级。她不避讳这一梯度，但强调每一步都在为最终的因果大模型积累经验、数据与工程能力。

而近期阶段性的落地切口，她选择了当前最具想象力、市场反响也最热烈的场景——具身智能。

3. 机器人为什么要 " 懂因果 "？

之所以选择在具身智能落地，Aether AI 并非是为了追逐热点。

从技术层面看，具身领域的数据相对规整。比如今年热度很高的 Ego-Centric 数据可以低成本大规模采集，普通人戴上摄像头做家务就能收集，远比依赖遥操数据容易规模化。仿真数据则能任意生成真实世界中很难采集的长尾场景和失败案例。

在 Aether AI的数据规划中，仿真数据约占 60%，第一人称数据约占 30%，遥操仅占 10%。

这与当下 VLA 路线大量依赖遥操数据堆量的思路截然不同。遥操数据采集成本高且难以 scale，而且只能覆盖简单短程的成功任务，无法模拟杯子摔落等失败场景。Aether AI 用更少的遥操、更多的结构化数据，反而能让模型学到更底层的物理规律，这正是因果范式数据效率更高的根源。

从市场层面看，具身智能下游的机器人厂商对 " 懂因果 " 的大脑需求旺盛。黄碧薇透露，已经有不少国内外机器人本体厂商表示，希望找到一个真正能理解物理世界的智能核心。

这些需求背后都是真实的落地瓶颈。2025 年，机器人流畅完成各种操作的 demo 层出不穷，但背后是大量针对性的训练数据和精心的场景约束。一旦零件位置偏移几厘米或光照条件改变，机器人的表现就会断崖式下滑。

这些瓶颈追溯到技术源头，同样是由 LLM 范式的局限性导致的。" 要让相关性模型做好复杂任务，必须同时满足数据足够多且模型足够大、训练数据覆盖现实中所有可能情况。这在开放的物理世界几乎不可能成立。"她说。

因果世界模型恰恰能从底层解决三个核心问题。

第一，在相同形态、不同规格的硬件本体之间实现跨本体泛化。例如，不同尺寸的夹爪或机械臂之间可以直接零样本迁移，从夹爪到灵巧手则需要引入少量数据微调即可跨本体迁移。对机器人厂商而言，这意味着无需为每一款硬件重新训练大脑，部署成本大幅降低。

第二，显著提升跨任务、跨环境的泛化能力。传统机器人模型依赖大量场景数据，任务、物体或环境稍有变化，性能就容易下降。因果世界模型则学习 " 动作—物体—环境—结果 " 之间的本质因果关系，使机器人在新任务、新场景和新物体组合下，也能推断合理动作，具备更强的开放环境泛化能力。

第三，长程任务的理解与执行能力大幅提升。黄碧薇用一个具体场景来阐述：机器人被告知朋友要过来，它需要理解隐含意图是整理客厅、准备茶水。整理时发现桌上有私人账单和书，账单要放抽屉里，书要规整好；沏茶时要根据客人喜好准备杯子。在这个场景中，智能体系统负责高层任务规划，因果世界模型负责具体操作生成。

在「甲子光年」看来，这正是具身智能最值得期待的突破方向。过去两三年，行业大部分精力花在了数据采集和仿真渲染上，但让机器人像人一样举一反三的底层架构始终缺位。因果世界模型如果能在明年跑通，很可能成为具身智能的 ChatGPT 时刻。

按照黄碧薇的规划，Aether AI 将在今年下半年发布第一版 demo，展示机器人的长程推理与跨任务泛化能力。

对于因果范式下的具身智能，黄碧薇预计，明年初，机器人有望在操作任务上迎来 "GPT 3.0 时刻 "，具备较好的泛化性能、非常高的成功率，以及长程任务能力；到明年下半年，结合移动与操作，机器人可以在开放环境中自由探索，达到 "GPT 3.5 时刻 "，通过强化学习实现终身学习（lifelong learning），自己完成从未见过的新任务。

" 明年下半年，公司计划推出具备自我探索能力的版本，让机器人在开放环境中通过强化学习不断更新策略。" 黄碧薇透露。

4." 我们已经站在黎明前夕 "

不过，具身只是第一站。

" 我希望像 OpenAI 引爆 LLM 范式一样，将 Aether AI 打造成引爆因果 AI 范式的里程碑式角色。" 黄碧薇直言。

但她强调，Aether AI 的自我定位首先是一个前沿实验室（Frontier Lab），核心使命是打造以因果智能为底层的通用模型主干（backbone）。具身智能只是验证模型能力的第一个锚点，未来这套架构还将向生物、金融等更复杂的领域延伸，但公司不会成为一个纯粹应用驱动的商业组织。

只是，因果 AI 的发展之路，或许比深度学习更为崎岖。其理论门槛极高，需要研究者具备多年理论、数学与统计的深厚积累，上手难度大，远不如深度学习那般容易吸引大批研究者涌入。

与此同时，学术圈长期以来更偏爱理论探索，对产业化工作的重视相对不足，这种 " 重理论、轻应用 " 的文化惯性，使得因果 AI 的成果长期停留在论文层面。两重因素叠加之下，真正精通因果 AI 的人才极为稀缺，且大部分仍留在学术界，难以向产业界扩散。

不过，理论壁垒深，意味着技术本身就具备短期内无法复制的护城河；人才稀缺，则更能发挥黄碧薇以及团队在因果 AI 领域深耕多年的先发优势；文化惯性存在，意味着缺少一个 " 把因果 AI 带出象牙塔 " 的关键角色。Aether AI 就是要扮演这个角色。

黄碧薇反复强调一个观点：人并不擅长发现因果关系。某种程度上，人类大脑是很容易被 " 相关性 " 欺骗的，正因如此才会产生 " 额头大的人更聪明 " 这类误解。

而 AI，理论上应该比人脑更容易学习因果关系，因为它可以更深地挖掘统计数据背后潜藏的因果结构，不受人类认知偏见的限制。

这或许是因果 AI 最迷人的地方。它试图走一条人类未曾走完的路，尝试用机器的方式，抵达因果理解的彼岸。

" 我觉得我们离这一天很快了，已经站在黎明前夕了。" 黄碧薇说。

（封面图来源：AI 生成）

END.

宙世代

一起剪

相关标签