甲子光年 前天
经纬领投2000万美元,Aether AI让机器人学会举一反三
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

用机器的方式,抵达人类未曾到达的因果彼岸。

作者|刘杨楠

编辑|栗子

过去半年,从硅谷到中关村,许多人都试图通过世界模型在物理世界复刻 ChatGPT 的传奇。可物理世界有太多语言无法描述的隐秘变量,例如摩擦力、温度、光照等等,无不影响着模型对现实世界的理解程度。光靠堆语言或视频数据和算力,已经不够用了。

而一笔刚刚落定的融资,将外界目光引向了一位来自加州大学圣地亚哥分校的学者。

6 月 18 日,Aether AI 宣布完成约 2000 万美元首轮融资,由经纬创投领投,英诺基金、SWC Global、九合创投联合参投。这家成立不久的 AI 公司所押注的方向,正是黄碧薇博士在 CVPR 2026 上抛出的答案——因果世界模型。

黄碧薇博士(Prof. Biwei Huang),图片来源:Aether AI

黄碧薇博士(Prof. Biwei Huang)是加州大学圣地亚哥分校(UCSD)助理教授、Aether AI 创始人。她有一个看似并不合群的观察,认为今天所有主流大模型,本质上都只是在学相关性,而非因果性这会让模型永远停留在数据的表层关联里,无法真正理解世界运行的逻辑。

这个判断建立在她过往十余年研究基础上,从上海中科院神经所到德国马普所(Max Planck Institute)、图宾根大学,最终进入该领域的开创地 CMU,师从多位奠基人 Kun Zhang, Clark Glymour, Peter Spirtes,和 Bernhard Sch ö lkopf。由此,她的研究路径几乎贯穿了因果 AI 从欧洲到美国的完整传承。

博士毕业那年,黄碧薇迎面撞上了 ChatGPT 掀起的 LLM 浪潮。尽管身处 AI 前沿研究多年,她对 LLM 并非一无所知,但 ChatGPT 在自然语言任务上的惊人效果,还是给她带来了巨大冲击。" 方法明明非常简单粗暴,但效果确实很好。" 她回忆道," 那时候意识到,即使在小数据上挖尽所有信息,也比不上在大数据上做一次简单的挖掘。"

冲击过后,她迅速冷静,开始重新审视前行方向。

黄碧薇系统回望过去 30 年的 AI 演变,从中拎出两条清晰的主线:一是模型规模从小到大的跃迁,二是抽象深度从相关性到因果性的递进。

具体来看,90 年代初,基于相关性的小模型研究成为主流;2010 年前后,她和 CMU 的导师们用小模型的成熟算法将因果发现推向了新的高度,开创了以因果为核心的小模型时代;而 ChatGPT 的横空出世,则验证了 " 大数据 + 大模型 " 在相关性路径上的工程可行性。

她敏锐发现,模型规模和抽象深度并非天然绑定。相关性小模型时代积累的算法方法论,恰恰可以为她们的因果发现研究提供扎实的工具箱。如今在大模型时代,她能否将自己和导师的历史成就再推上一个新台阶?

黄碧薇决定顺势而为。博士毕业后,她加入 UCSD 担任助理教授,开启独立研究。她的目标很明确:把 LLM 的 Scaling law 和小模型时代几近完美的因果算法相结合,让模型在保持规模的同时,真正学到物理世界的因果结构。

这一次,挡在黄碧薇面前的是一片尚未开垦的荒原,她身后站着无数曾在前方引路的 AI 先驱们,推着她在因果 AI 和 LLM 交界的空白地带,开辟一个全新的战场。

1." 结构即智能 "

Scaling Law 的裂痕,不止于表层的算力和数据瓶颈,更指向一个根本质疑:LLM 的智能,到底是理解世界,还是机械记忆?

早在 2024 年,哈佛研究员 Keyon Vafa 的一篇论文对此已有印证。他通过实验发现,AI 在学习数百万条导航指令后,能画出准确率高达 99% 的曼哈顿路线,地图上却凭空多出一条穿中央公园的路—— Vafa 指出,这是由于 AI 只是死记硬背零散路线的经验法则,并未对城市道路形成真正的认知地图。

这个结果直指今天 LLM 的本质困境:它能复现训练语料中的因果表述,却并不真正理解因果,本质上只是 " 鹦鹉学舌 "。

根源在于 Transformer 和 Scaling Law 的内在局限。

Transformer 的核心是注意力机制,学习的本质是 token 共现概率。它能预测 A 之后大概率是 B,却学不会 " 因为 A,所以 B" 背后的因果关系。按图灵奖得主 Judea Pearl 的 " 因果阶梯 " 划分,模型始终被锁在最底层的 " 关联 " 层级,无法触及 " 干预 " 与 " 反事实 "。

那为什么 LLM 有时会表现出 " 懂得因果 " 的假象?Scaling Law 起了关键作用。训练语料中大量 " 因为 / 所以 " 句式被模型靠规模记忆下来,但对于语料中未明确点明的因果关系,模型自然无从学习。

此前一项研究则表明,GPT-4 在判断国际象棋合法开局时准确率接近 90%,但当规则被轻微修改,将骑士与主教交换初始位置——这个反事实情景在训练数据中极为罕见,模型准确率便骤降至约 54%,几乎等于随机猜测。

这恰恰暴露了 Scaling Law 背后 " 压缩即智能 " 理念的短板。黄碧薇并不否认这一理论对 LLM 的里程碑式引导,但在她看来,更准确的表述应是:结构即智能。

LLM 的黑箱式压缩记住了海量 token 的共现模式,却没能把知识组织成可迁移、可干预的因果结构。一旦规则改变,便无能为力。

这种局限也直接导致了 LLM 的 " 幻觉 "。比如,当 " 西雅图 " 和 " 华盛顿州 " 在语料中高频共现,GPT-3 就倾向于把西雅图当作首府,这是相关性学习的典型陷阱。

相反,因果模型则理解数据背后的生成机制,知道答案是如何推导出来的,因此具备更强的可控性和可解释性。

因此,黄碧薇认为,只有经过结构化组织的信息,才能真正具备信息量,进而产生智能。换句话说,结构化的压缩,才是智能。

这一判断正在成为越来越多人的共识。DeepSeek-R1 仅靠强化学习就让模型自行 " 顿悟 " 出因果推理能力;去年 Ilya Sutskever 公开断言 Scaling Law 即将触顶,AI 行业必须从 " 资源竞赛 " 重返 " 范式创新 "。

种种信号指向同一个事实。智能的边界,正从数据规模转向因果理解与泛化深度。

在「甲子光年」看来,这意味着 AI 竞争的核心逻辑正在发生根本性的位移。

过去三年,大模型赛道比拼的是 " 谁能拿到更多的数据、买到更多的显卡 "。而在具身智能、科学发现等更复杂的领域,谁能率先构建出因果结构,让模型真正理解物理世界,谁就能在下一代 AI 竞赛中抢占身位。

2. 拆解 Aether AI 的 " 因果大脑 "

就像 LLM 是 " 压缩即智能 " 的代表路线一样," 结构即智能 " 也需要一个具体的模型范式来完成从理论到产业的跨越。

目前,随着越来越多企业开始向世界模型靠拢," 世界模型 " 的概念边界也越发模糊。视频生成模型、3D 重建模型,甚至连能聊天的语言模型都被包装成世界模型。

回归技术本质,黄碧薇的答案是因果世界模型,她认为,实现真正的世界模型道路,至少需要跨越三个台阶:表象生成、空间建模和因果想象

第一层是表象生成,以 Sora 为代表,画面逼真但经不起物理推敲,杯子碎了可以复原,手穿过桌子不会变形。

第二层是空间建模,以李飞飞提出的空间智能为代表。它进一步理解三维空间、物体位置和几何关系,知道 " 杯子在桌子上 ",但如果缺少时间演化和动作后果预测,仍未必知道 " 推一下杯子会掉下去 "。

第三层是因果想象。模型只有学到物理世界背后的因果结构,才能预测干预后的结果,并进行反事实推理。这也是机器人走向开放环境、长程任务和自主泛化的关键。

在这个递推框架之外,Yann LeCun 提出的 JEPA 是另一条值得关注的路线。JEPA 去掉了像素空间的解码器,通过过滤高频噪声来缩小模型尺寸。

黄碧薇认可这个思路的价值,但指出了两个问题。

一方面,去掉解码器虽然过滤了噪声,也同时丢掉了机械手与物体接触的瞬间、摩擦力变化这类非常细节的信息。这些细节对视频生成无关紧要,但对机器人操作却是精确控制的关键。另一方面,JEPA 没有在隐空间里显式学习因果变量和因果结构。它跳过了渲染,直接进入某种抽象表征,但离真正的 " 想象 " 还有距离。

这几条路线的共同问题是,都没有真正触及物理世界的因果机制。

于是,黄碧薇将传统因果发现的方法论,包括从观测数据中自动抽取隐变量、识别因果方向、学习因果动力学,与大模型的海量数据处理能力结合起来,打造了让模型真正具备 " 想象 " 能力的因果世界模型新范式。

她认为,因果世界模型必须具备三个特征。

一是结构化隐表征,让模型从视频和传感器信号里学习背后的因果变量,而不是停留在 token 层面。在黄碧薇看来,观测到的变量往往不是真正的因果变量,必须深入到隐空间去学习。

二是因果结构,理解这些因果变量之间是怎么相互影响的。第一层回答 " 有哪些重要的东西 ",第二层回答 " 它们之间是什么关系 "。

三是因果动力学,掌握系统如何随时间演化,以及动作如何驱动状态变化。学到了真正的因果变量、因果结构和动力学,预测下一个状态就是自然而然的结果。

这套框架的增益直接体现在模型的泛化性和数据效率上。" 假设有 100 个变量,传统方法在新环境中需要重新估计全部联合分布,但从因果角度看,可能只有两个变量的因果机制发生了变化,只需少量数据就能更新相应参数。" 黄碧薇解释道。

这正是因果世界模型能用更高数据效率实现更强泛化性的根源。黄碧薇透露,团队目前仅用 50 条数据,就让一些开源模型在特定操作任务上的表现大幅提升。

但更高的数据效率并不意味着因果世界模型的训练不需要大数据。恰恰相反,因果世界模型同样建立在海量数据之上,只是处理方式不同。

Aether AI 的因果世界模型无需人工标注因果结构,而是采用 self-supervised learning 和课程学习的方式,先喂简单干净的数据,再逐步增加难度,让光照、场景等因素自然变化。核心逻辑是在因果结构与某种统计性质之间建立一对一的映射,使模型能从统计性质反推因果结构,实现自监督学习。

然而,一个完整的智能系统不能只有世界模型。要完成复杂任务,必须有一个高层的智能体系统负责规划与决策,同时底层架构也需要从根上支持因果推理。

基于这一思路,Aether AI 搭建了一个四层架构的 " 因果大脑 "。

第一层是因果驱动的智能体系统,具备因果规划、归因、记忆,能反思上次任务为何失败,并据此调整策略。

第二层是因果世界模型。作为系统的认知核心,这一层负责理解物理世界的运行规律。它接收上层传来的子任务,在内部模拟 " 如果这样做,世界会怎样变化 ",然后生成精确的任务指令,驱动上层的智能体系统。

第三层是模块化架构,目标是实现对人脑功能分区的工程模拟。

黄碧薇指出,当前混合专家模型(MoE)有一个普遍问题,就是专家模型之间功能高度重叠,往往只有一两个在真正干活,没有实现功能解耦。Aether AI 希望实现像乐高积木一样功能独立的模块化架构,不同模块可拆可换,不互相纠缠。

第四层是Causation Transformer,在保持其可扩展性的前提下,加入对时间延迟、瞬时关系以及隐因子影响的建模能力,让底层从学习 " 相关性 " 升级为学习 " 因果性 "。

这四层并非同步实现。黄碧薇的推进策略是,先在一二层跑通因果泛化,再逐步推进至三四层,后者所需的算力规模将提升一个数量级。她不避讳这一梯度,但强调每一步都在为最终的因果大模型积累经验、数据与工程能力。

而近期阶段性的落地切口,她选择了当前最具想象力、市场反响也最热烈的场景——具身智能。

3. 机器人为什么要 " 懂因果 "?

之所以选择在具身智能落地,Aether AI 并非是为了追逐热点。

从技术层面看,具身领域的数据相对规整。比如今年热度很高的 Ego-Centric 数据可以低成本大规模采集,普通人戴上摄像头做家务就能收集,远比依赖遥操数据容易规模化。仿真数据则能任意生成真实世界中很难采集的长尾场景和失败案例。

在 Aether  AI的数据规划中,仿真数据约占 60%,第一人称数据约占 30%,遥操仅占 10%。

这与当下 VLA 路线大量依赖遥操数据堆量的思路截然不同。遥操数据采集成本高且难以 scale,而且只能覆盖简单短程的成功任务,无法模拟杯子摔落等失败场景。Aether AI 用更少的遥操、更多的结构化数据,反而能让模型学到更底层的物理规律,这正是因果范式数据效率更高的根源。

从市场层面看,具身智能下游的机器人厂商对 " 懂因果 " 的大脑需求旺盛。黄碧薇透露,已经有不少国内外机器人本体厂商表示,希望找到一个真正能理解物理世界的智能核心。

这些需求背后都是真实的落地瓶颈。2025 年,机器人流畅完成各种操作的 demo 层出不穷,但背后是大量针对性的训练数据和精心的场景约束。一旦零件位置偏移几厘米或光照条件改变,机器人的表现就会断崖式下滑。

这些瓶颈追溯到技术源头,同样是由 LLM 范式的局限性导致的。" 要让相关性模型做好复杂任务,必须同时满足数据足够多且模型足够大、训练数据覆盖现实中所有可能情况。这在开放的物理世界几乎不可能成立。"她说。

因果世界模型恰恰能从底层解决三个核心问题。

第一,在相同形态、不同规格的硬件本体之间实现跨本体泛化。例如,不同尺寸的夹爪或机械臂之间可以直接零样本迁移,从夹爪到灵巧手则需要引入少量数据微调即可跨本体迁移。对机器人厂商而言,这意味着无需为每一款硬件重新训练大脑,部署成本大幅降低。

第二,显著提升跨任务、跨环境的泛化能力。 传统机器人模型依赖大量场景数据,任务、物体或环境稍有变化,性能就容易下降。因果世界模型则学习 " 动作—物体—环境—结果 " 之间的本质因果关系,使机器人在新任务、新场景和新物体组合下,也能推断合理动作,具备更强的开放环境泛化能力。

第三,长程任务的理解与执行能力大幅提升。黄碧薇用一个具体场景来阐述:机器人被告知朋友要过来,它需要理解隐含意图是整理客厅、准备茶水。整理时发现桌上有私人账单和书,账单要放抽屉里,书要规整好;沏茶时要根据客人喜好准备杯子。在这个场景中,智能体系统负责高层任务规划,因果世界模型负责具体操作生成。

在「甲子光年」看来,这正是具身智能最值得期待的突破方向。过去两三年,行业大部分精力花在了数据采集和仿真渲染上,但让机器人像人一样举一反三的底层架构始终缺位。因果世界模型如果能在明年跑通,很可能成为具身智能的 ChatGPT 时刻。

按照黄碧薇的规划,Aether AI 将在今年下半年发布第一版 demo,展示机器人的长程推理与跨任务泛化能力。

对于因果范式下的具身智能,黄碧薇预计,明年初,机器人有望在操作任务上迎来 "GPT 3.0 时刻 ",具备较好的泛化性能、非常高的成功率,以及长程任务能力;到明年下半年,结合移动与操作,机器人可以在开放环境中自由探索,达到 "GPT 3.5 时刻 ",通过强化学习实现终身学习(lifelong learning),自己完成从未见过的新任务。

" 明年下半年,公司计划推出具备自我探索能力的版本,让机器人在开放环境中通过强化学习不断更新策略。" 黄碧薇透露。

4." 我们已经站在黎明前夕 "

不过,具身只是第一站。

" 我希望像 OpenAI 引爆 LLM 范式一样,将 Aether AI 打造成引爆因果 AI 范式的里程碑式角色。" 黄碧薇直言。

但她强调,Aether AI 的自我定位首先是一个前沿实验室(Frontier Lab),核心使命是打造以因果智能为底层的通用模型主干(backbone)。具身智能只是验证模型能力的第一个锚点,未来这套架构还将向生物、金融等更复杂的领域延伸,但公司不会成为一个纯粹应用驱动的商业组织。

只是,因果 AI 的发展之路,或许比深度学习更为崎岖。其理论门槛极高,需要研究者具备多年理论、数学与统计的深厚积累,上手难度大,远不如深度学习那般容易吸引大批研究者涌入。

与此同时,学术圈长期以来更偏爱理论探索,对产业化工作的重视相对不足,这种 " 重理论、轻应用 " 的文化惯性,使得因果 AI 的成果长期停留在论文层面。两重因素叠加之下,真正精通因果 AI 的人才极为稀缺,且大部分仍留在学术界,难以向产业界扩散。

不过,理论壁垒深,意味着技术本身就具备短期内无法复制的护城河;人才稀缺,则更能发挥黄碧薇以及团队在因果 AI 领域深耕多年的先发优势;文化惯性存在,意味着缺少一个 " 把因果 AI 带出象牙塔 " 的关键角色。Aether AI 就是要扮演这个角色。

黄碧薇反复强调一个观点:人并不擅长发现因果关系。某种程度上,人类大脑是很容易被 " 相关性 " 欺骗的,正因如此才会产生 " 额头大的人更聪明 " 这类误解。

而 AI,理论上应该比人脑更容易学习因果关系,因为它可以更深地挖掘统计数据背后潜藏的因果结构,不受人类认知偏见的限制。

这或许是因果 AI 最迷人的地方。它试图走一条人类未曾走完的路,尝试用机器的方式,抵达因果理解的彼岸。

" 我觉得我们离这一天很快了,已经站在黎明前夕了。" 黄碧薇说。

(封面图来源:AI 生成)

END.

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 融资 中关村
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论