钛媒体 02-15
姚顺宇率领谷歌复仇Anthropic,“没有你才更好”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 字母 AI,作者 | 苗正,编辑 | 王靖

谷歌 CEO 皮查伊在 X 上高调宣布,Gemini 3 Deep Think 在最难的挑战上,取得了前所未有的成绩。

这个项目,正是姚顺宇加入谷歌后参与的第一个重量级项目。

作为谷歌的对手之一,xAI 的创始人马斯克都不由得在这条贴文里留下了一句 " 令人印象深刻 ",皮查伊则回复给他一个 " 大拇指 " 表情。

然而,当人们翻看姚顺宇的履历时,通常都会以为自己搜错名字了。

但你没有看错,姚顺宇的确没有任何计算机背景,他本身是一位理论物理学家,他的博士研究方向是量子引力和量子信息扰乱。

正所谓遇事不决量子力学。

当 Scaling Law 逐渐失效,AI 产业正在经历的一场变革。

真正能给 AI 带来突破,带着人们走向 AGI 的,或许反而是那群懂得用物理,来理解 " 智能 " 这个词本质的人。

这孩子打小就喜欢物理

姚顺宇小时候随父母从宁夏来到上海,就读于浦东新区的上南中学东校。初三时,他在浦东新区物理竞赛中拿了个三等奖。

有一说一,这成绩不算特别亮眼,我小时候拿过物理竞赛的一等奖。

2012 年,姚顺宇以推荐生身份被上海市格致中学提前录取,随后便开始了他开挂般的人生。

2015 年,他考入清华大学物理系。

只不过当时没人能想到,这个物理系新生,会在 10 年后给整个 AI 界带来不小的震撼。

进入清华后,姚顺宇的表现开始不一样了。

大二下学期,当大多数同学还在为基础课程焦头烂额时,他已经开始上博士生的凝聚态物理课程。

那一年,姚顺宇被周期驱动系统(Floquet systems)吸引了。

这是个极其前沿的研究领域,涉及复杂的数学和物理概念。他和导师汪忠教授一起,写了篇 50 多页的长文章,完成了对高维、一般对称性下 Floquet 周期驱动系统的拓扑分类。

这项工作为这一研究方向建立了完整的理论框架,是一项非常系统的里程碑式拓扑分类工作。

并且,姚顺宇以第一作者身份,将这篇论文发表在了物理学顶级期刊 Physical Review B 上。

对一个本科生来说,这几乎是不可能完成的成就。

物理系主任王亚愚教授后来回忆说,在这门主要面向博士生的课程中,姚顺宇是十年来给自己印象最深的两名学生之一。

但真正让姚顺宇在物理学界出名的,是他在非厄米系统方面的发现。

在清华期间,他首次在国际上给出了关于非厄米系统的拓扑能带理论,并准确预测了相关现象。

简单说,他发现在开放量子系统中,电子态会神奇地 " 挤 " 到材料边界,这种现象被称为 " 非厄米趋肤效应 " ( Non-Hermitian Skin Effect ) 。这个发现颠覆了传统拓扑物理的理论框架。

这项工作发表在 Physical Review Letters 上,并获得了编辑推荐。

这篇题为《Non-Hermitian Skin Effect and Chiral Damping in Open Quantum Systems》的论文,后来被引用近千次,成为姚顺宇学术影响力最高的作品。

2018 年 11 月 8 日,清华大学本科生特等奖学金答辩会举行。

这是清华授予本科生的最高荣誉,每年全校不足十人,在这之中便有姚顺宇。

他也成为了物理系当年唯一获此殊荣的学生。

2019 年,姚顺宇去斯坦福大学读理论与数学物理博士。

他的导师是 Douglas Stanford 和 Stephen H. Shenker。

前者被同行认为是最有潜力改变物理发展方向的顶尖青年科学家,后者则是弦理论领域的传奇人物。

在斯坦福期间,姚顺宇研究量子引力和量子信息扰乱(quantum scrambling),这是理论物理中最前沿、也最抽象的领域之一。

博士毕业后,他在加州大学伯克利分校做博士后研究。截至目前,他的总引用次数超过 5000 次,h 指数 14。

一个学物理的凭什么能研究 AI?

虽然很多人大学选的专业,和他们毕业出来后找的工作都没有直接关联,但是像姚顺宇这样一直在钻研物理学的人,理论上应该找个物理相关的工作。

但是姚顺宇偏偏选择了 AI。

2024 年 10 月,姚顺宇加入 Anthropic,参与大模型 Claude Sonnet 框架的研发。

一个研究量子引力的物理学者,凭什么能负责起世界顶尖 AI 公司的研发工作?

答案其实不复杂。

大模型的核心技术本质上是数学密集型的工作。训练大模型需要解决高维空间中的优化问题,这跟物理学中的变分法、统计力学有很深的联系。

姚顺宇研究的拓扑物理、非厄米系统,用的数学工具,比如概率论、线性代数、张量计算、动力系统理论,它们跟深度学习高度重合。

更关键的是,理论物理和机器学习处理的是同一类问题:高维、非线性、涌现性强的复杂系统。

统计物理学中的吉布斯分布,就是机器学习中概率推断的理论基础。深度神经网络的训练过程,可以看作是在高维参数空间中找能量最小值,这跟统计物理中的自由能最小化原理一个道理。

近年来越来越多研究表明,统计物理的工具可以用来理解深度学习中的很多现象。

量子多体系统和大模型在数学结构上很相似。

在量子物理中,大量粒子相互作用时,会涌现出单个粒子层面无法预测的集体行为。

在大模型中,数十亿个神经元参数相互作用时,同样会涌现出超出预期的效果。

事实上现在咱们常说的思维链推理、上下文学习、指令遵循,也都是依靠这种涌现的方式才诞生的。

这种从微观到宏观的涌现现象,也正是物理学家最擅长研究的。

因此,基于物理训练出来的 " 物理直觉 ",恰恰是 AI 研究最需要的。

从复杂现象中抽象出数学模型,这是物理学家的基本功。

在 AI 领域,这意味着能理解神经网络的本质,而不是停留在调参层面。

物理学家习惯在不同尺度上思考问题,从微观粒子到宏观宇宙。这种跨尺度建模的能力对应到 AI 中,就是理解从单个神经元到整体的全景图。

姚顺宇在斯坦福研究的量子信息扰乱(quantum scrambling),关注的是量子信息如何在复杂系统中扩散和混乱化,这套数学框架跟神经网络中信息的传播和处理有相似的结构。

那么当他转去做 AI 相关的研究时,这些看似抽象的物理理论,就顺理成章地变成了理解大模型行为的工具。

更直接的联系来自强化学习这个概念本身。

姚顺宇在 Anthropic 主要做强化学习研究,而强化学习的理论基础本身就源于物理学。

最优控制理论恰好是来自经典力学的变分原理,路径积分方法直接借鉴量子力学的费曼路径积分,熵正则化来自统计物理的自由能概念。

对一个理论物理学家来说,这些不是需要学习的新知识,而是已经内化在思维方式里的工具。

这种从物理到 AI 的转变,不是姚顺宇一个人的个案。

卷积神经网络的发明者杨立昆(Yann LeCun),在进入 AI 领域之前,学的就是工程物理教育。

深度学习的奠基人杰弗里 · 辛顿(Geoffrey Hinton),他提出的玻尔兹曼机(Boltzmann Machine),名字就来自统计物理学家路德维希 · 玻尔兹曼。

而这套系统的核心逻辑,便是用统计物理中的能量函数来描述神经网络的状态分布。

事实上,姚顺宇在加入 Anthropic 后,深度参与了 Claude 3.7 Sonnet 与 Claude 4 系列的强化学习模块研发,是这两代模型能力跃升的关键贡献者。

这不是 " 跨界 ",而是把物理工具应用到新领域。

当 AI 产业逐渐从 " 暴力堆算力 " 的 Scaling Law 时代,转向新阶段时,反而需要这样的物理学者。

新征程

2025 年 9 月 19 日,姚顺宇在个人博客上发了篇文章,宣布离开 Anthropic。

在这篇文章里,他很坦诚地说明了离职原因,并给出了一个精确的比例:40% 和 60%。

40% 指的是可以公开的原因,来自于姚顺宇和 Anthropic 之间价值观上的冲突。

 

2025 年 9 月 5 日,Anthropic 在内部文件中把中国列为 "adversarial nations"(敌对国家),并宣布停止向 " 中国实体控股的公司 " 提供 AI 服务。

姚顺宇在博客中写道:" 我强烈反对 Anthropic 发表的反华言论。尽管我相信 Anthropic 的大多数人都会反对这样的言论,但我认为我没有办法继续留在公司。"

这段话写得很克制,但能看出他的失望和无奈。

他特别强调 " 大多数人都会反对 ",说明他理解这个政策不是来自公司内部的普遍共识,更多是外部压力和公司高层决策的结果。

60% 指的是那些涉及 " 内部的机密信息 ",不可公开的信息。姚顺宇因保密协议无法详细透露。

但他强调,自己 " 不希望经验与知识受到特定实验室偏见的限制,尤其是在核心研究已无需依赖论文发表的当下,更需要开放、平等的科研环境 "。

说起来像是个笑话,但实际情况就是,在 AI 研究日益商业化、封闭化的今天,学术自由和开放合作正在受到越来越多限制。

在博客结尾,他用了句意味深长的话:"It was good with you, but it is better without you."(和你在一起很好,但没有你更好)这句话既是对过去一年工作的肯定,也是对未来道路的期待。

这件事反映了在全球 AI 竞争的大背景下,华裔科学家面临的复杂处境。

一方面,美国有世界上最先进的 AI 研究资源和最优秀的科研团队。

可另一方面,受地缘影响,很多华裔科学家的身份成了职业发展的障碍。

但故事没有在离职中结束。离开 Anthropic 仅 10 天后,姚顺宇就加入了 Google DeepMind,担任高级研究科学家(Senior Staff Research Scientist),且直接进入核心 Gemini 团队。

这速度之快,说明 DeepMind 早就看中了他的能力。

无论是谷歌 CEO 皮查伊,还是 DeepMind CEO 哈萨比斯,他俩在国际合作方面采取了更开放的立场。

尤其是后者,他一直在倡导国际合作,认为 AI 安全问题需要全球科学家共同努力。

因此,即便同样受到美国出口管制约束,谷歌依然没有完全切断与中国研究机构的联系。

加入 DeepMind 后,姚顺宇立即投入 Gemini 团队的工作。

仅仅 5 个多月后,谷歌就推出了 Gemini 3 Deep Think 的重大升级。

这是姚顺宇加入谷歌后参与的首个项目,成绩足以让整个 AI 圈震惊。文章开头处就提到,这次更新甚至让马斯克也对其称赞。

Gemini 3 Deep Think 在多项基准测试中刷新了纪录。

比如在 ARC-AGI-2 测试中,它达到了 84.6% 的成绩。ARC-AGI 是专门测试 AI 的抽象推理能力,测试的目标是检测 AI 在面对从未见过的新问题时,能否识别模式并找到解决方案。

这种能力被认为是真正智能的标志,而不是简单的模式记忆。

Gemini 3 Deep Think 的成绩,比第二名 Claude Opus 4.6 的 68.8% 高出 15%,比 GPT-5.2 的 52.9% 更是高出 30%。

在 Codeforces 编程平台上,Gemini 3 Deep Think 获得了 3455 分的 Elo 评分,达到 " 传奇大师 " ( Legendary Grandmaster)级别,世界排名第 8。

这意味着在算法竞赛和系统架构方面,全世界只有 7 个人类程序员能超越它。

在奥林匹克竞赛水平测试中,Gemini 3 Deep Think 在数学、物理、化学三个学科都达到了金牌水平。

更重要的是,Gemini 3 Deep Think 还处理那些缺乏明确指导原则、答案不唯一、数据杂乱或不完整的现实挑战。

这其实是当前所有 AI 都面临的短板。这些大模型虽然在标准化测试中表现出色,但面对真实世界的复杂问题时,往往表现糟糕。

虽然我们无法确切知道姚顺宇在 Gemini 3 Deep Think 项目中具体负责了哪些工作,但从时间线上看,他在自己的 X 上,第一时间宣布了 Gemini 3 Deep Think 的发布。

我个人认为,姚顺宇在 Anthropic 积累的强化学习经验,以及他作为物理学家对复杂系统的理解,为 Gemini 团队带来了新的视角和方法。

两个 "Shunyu Yao" 的平行宇宙

说到 Shunyu Yao,其实在 AI 研究圈里,有两位知名研究者都叫 Shunyu Yao,发音完全一样,都跟在顶尖的 AI 公司做研究工作,也都毕业于清华大学。

每次有关于 " 姚顺宇 " 的新闻,总有人问:" 是哪个姚顺 Yu?"

跟本文的主角不同,另一位姚顺雨是正儿八经的计算机背景。

他是清华姚班毕业,普林斯顿大学计算机科学博士,曾在 OpenAI 工作,目前已加入腾讯。

姚顺雨在 AI 圈的名气,要比物理学家姚顺宇更大。

他提出的 ReAct 框架(Reasoning and Acting),是近年来最有影响力的提示工程方法之一。

这个框架的核心思想是让 AI" 边思考边行动 ",不是先完成所有推理再执行,而是在推理和行动之间交替进行,就像人类解决问题时的思维过程。

ReAct 论文发表于 2022 年 10 月,到 2025 年已经被引用超过 4000 次,成了提示工程领域的经典工作。

姚顺雨的另一项重要贡献是思维树(Tree of Thoughts)。

如果说思维链是让 AI 学会了 " 一步步思考 ",那思维树就让 AI 学会了 " 探索多条思路 "。

在面对复杂问题时,AI 不再只沿着一条路径推理,而是可以同时探索多个可能的解决方案,评估每条路径的前景,然后选择最有希望的方向深入。

姚顺雨在谷歌 Scholar 上的引用数超过 15000 次,远高于物理学家姚顺宇的 5000 次。

但我认为这不奇怪,计算机科学领域的论文引用速度,本来也要比物理学快得多,而且姚顺雨的工作更接近应用层面,影响范围更广。

但引用数不能完全衡量一个科学家的价值,两个 Shunyu Yao 都在各自领域做出了重要贡献。

如果说姚顺宇是从 " 量子力学 " 出发来研究 AI,那姚顺雨就是从 " 让 AI 像人类一样思考和行动 " 的角度切入。

两个人的研究方法、思维方式、甚至用的数学工具都不一样,但他们都在用自己的方式,去实现 AGI。

姚顺雨在腾讯的工作,目前来看,是主要集中在 agent 上的。他发布的论文《CL-bench》,就是一个用于评估 AI agent 能力的基准测试。

它相当于一个给 AGI 研究者们明确一个方向,只要你的研究成果能在 CL-bench 上拿高分,那就说明你接近 AGI。

姚顺宇则是更为直接,因为他认为真正的智能需要理解世界的底层规律。

物理学提供了描述宇宙运行的数学语言,从量子力学到统计物理,从信息论到复杂系统,这些都是构建真正智能系统的理论基石。

那么通过物理学,便可以让 AI 的智能水平更上一层楼,靠近 AGI。

但无论如何,没有哪一种方法是唯一正确的,没有哪一个学科能独自解决所有问题。

物理学家的理论洞察和计算机科学家的工程创新,都是推动 AI 发展不可或缺的力量。

两个 Shunyu Yao,两条道路,同一个目标。

就像集齐龙珠可以召唤神龙一样,或许有这么一家公司,集齐了所有的 Shunyu Yao,那么它也就实现了 AGI。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 谷歌 ai 清华 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论