
导语
当数学函数被扩展到亿万维空间,它们似乎获得了 " 智能 ",一种从规模中涌现出的新特性。物理学家开始重新追问:当智能成为自然的一种现象,我们是否也需要建立 "AI 的物理学 "?本期我们访谈中山大学黄海平教授,围绕 "AI 的物理学 " 话题展开,探讨是否可以找到物理的第一性原理理解大模型的行为、揭示智能的生成机制,以及这一探索如何反照人类自身的认知与意识。
黄海平丨受访者
集智俱乐部|整理
目录
用统计物理研究 AI 的起点在哪里?
大模型兴起前后研究路径有何不同?
第三条路可能是什么?
您在这个领域做出了哪些成果?
未来会朝向哪些方向继续展开?
如何看待新概念,例如 "AI 的数学 ""AI 的物理学 "?
AI 的物理学真的能建立起来吗?
如果 AI 的物理学建立起来,会带来哪些改变?
" 如果物理学不存在,可能只剩关联或动力 ",如何理解?
统计物理与 AI 结合需要走出第三条路
Q1:用统计物理研究 AI 的起点在哪里?
:去年(2024 年)诺贝尔物理学奖颁奖的时候,有些人重新挖掘了这段历史。我想做一个比较形象的比喻:我们可以把这段历史看作是一部好莱坞大片。因为我们知道,好莱坞大片在讲故事时,总会有一条清晰的逻辑线。当然,实际上在 20 世纪 80 年代,这段科学史存在着两条并行的逻辑线。
第一条线可以追溯到 1972 年,实验物理发现了一种奇怪的相,后来我们知道 Giorgio Parisi 解决了这个难题。那是从凝聚态物理中分离出来的研究方向,核心是 " 自旋玻璃 "(spin glass)理论。它用来解释某些磁性材料或掺杂材料中出现的 " 玻璃相 " ——也就是类似我们日常所见的玻璃态。对自然界这一复杂状态的理解,正是从那里逐步演化出来的。Parisi 完成这项研究后,引发了人们对高维体系的关注,比如著名的 Sherrington – Kirkpatrick 模型的解析解就是这些发展中的里程碑。这条研究线由此奠定。与此同时,从 1982 年开始,另一条故事线也被开启。John Hopfield 开始思考 " 大脑是如何工作的 "。表面上看,自旋玻璃与大脑毫无关系,但是那时候刚好有人对这个问题感兴趣(当然包括 Hinton)。Hopfield 周围也有很多的物理学大家,包括 Philip Anderson、Giorgio Parisi、David Thouless 等人,这些科学家后来都拿过诺贝尔奖。周围有这样一群人让 Hopfield 意识到,高维系统的思想或许能与大脑相对应,于是他开启了第二条研究路径。当然,高维神经计算在 1970 年代也有日本数学家 Amari 的重要贡献。
这两条线是并行发展的。Parisi 那条路线主要提供了方法和理论思想;而 Hopfield 那条线,则不断带来新的问题和挑战。自 1982 年之后,人们开始尝试用动力系统的方法去解释真实大脑的活动,或者利用神经动力学模拟大脑的集群行为。直到今天,人工智能(AI)与神经科学(Neuroscience)的融合仍在继续。许多从事理论物理的学者依然在使用 Parisi 那一套技术、概念与方法,持续探索这条研究路线与大脑模型之间的对应关系。
从现在回望过去几十年的历史,你会发现:今天那些在这一领域做得最出色的科学家,基本就是在这两条故事线里面跳来跳去的。他们并非只沿着一条路径前行,而是对两条线都极为熟悉。
Q2:大模型兴起前后研究路径有何不同?
:大语言模型这个概念实际上在 2017 年就已经存在,但当时并没有将相应的产品开发出来。一直到 2023 年,才终于出现了这种现象级的产品(例如 ChatGPT)。这一产品的出现,就对前面提到的那两条故事线提出了更大的挑战。我的判断是,从 2023 年开始,那两条原有的故事线仍在发展,但与此同时,又出现了一条新的故事线。这就好比好莱坞大片发展到某个高潮之后,再添加一条新的故事线。然而,这条故事线并非人为添加,而是理解自然界的必然步骤。
大模型本质上是高维空间的计算,作为自然界的一部分,虽然是人类创造的产物,但与我们的生活息息相关,因此衍生出了第三条故事线。为什么说它是第三条故事线?因为它实际上挑战了我们传统的数学体系。我们从小学起学习各种函数,从最简单的线性函数、再到非线性函数,进入大学又学习物理学中的各种函数模型。然而,从某种意义上说,这些函数都是 " 没有生命的 ",它们只是我们手中的数学工具。但在 2023 年之后,就发生了一件很奇怪的事情,当这些函数以特殊方式表现并扩大规模后,竟然展现出了智能。这可能是人类科学发端以来史无前例的冲击,我们的函数中竟然蕴藏着智能。
当你把它缩小规模时,它不具备这种性质;但当你把规模扩大时,函数本身并没有变,然而却出现了智能。这就是工业界所说的 " 规模效应 ",人们开始相信,只要把模型的规模足够扩大,就一定会产生新的能力。然而,这种能力究竟从何而来?
对于统计物理学而言,规模本就是其核心概念。举个例子:当你只有两个气体分子时,不可能定义温度或压强,也没有所谓的理想气体定律;但当你把气体数量不断增大后,就会出现热力学第二定律、温度效应等宏观规律。因此,大模型的 " 规模效应 " 可以类比为从微观到宏观的统计物理映射。然而,当这一概念应用到神经网络中时,问题变得极为棘手。从某种意义上说,当前推进缓慢的原因可能在于新的数学工具尚未被创建出来。
这正是我将其称为 "AI 的物理学" 的原因。我希望当新的数学工具被开创并发展成熟后,能够形成一个与物理学四大力学平行的学科和研究方向。未来我们可能需要一本教科书,如同四大力学一样,来描述数学规模增大后为何会出现这种新的物理效应,而那时候,我们与大模型的对话是日常生活的一部分,我们必须理解这些高维计算的原理。
Q3:第三条路可能是什么?
:从 2023 年开始,大模型出现后,我们带领研究生持续讨论这一问题。我们先把大模型的各项能力列成一个表,然后逐项检视哪些能够被解释。对于如此复杂的系统,我们当然不可能用一个模型把所有功能全部解释清楚;到目前为止,我们也还看不到这种希望。但我们可以抓住某一个功能切入。
如果让我总结,主要有三个方向:一是示例泛化,不需要重新训练就能识别规律;二是思维链;三是幻觉现象。我认为,如果未来十年内要实现突破,应该在这三个方向齐头并进。如果这些问题能够被突破,我认为这将是人类科学史上一个极其重要的时刻,必将载入史册。
就近期动向而言,美国西蒙斯基金会投入约七年、大概一亿多元的资金,资助理论科学家专门思考这几类问题,希望他们能在七年内找到答案。所以在这一领域的未来重要问题上,国际竞争极为激烈。
研究成果与未来方向
Q4:您在这个领域做出了哪些成果?
:十年前,我们开始研究感知机(perceptron)的解空间。也就是现在所说的深度学习(deep learning),其本质就是在学习一组矩阵的元素。或者说我们叫 " 字节跳动 ",因为每个矩阵的元素可能是一个比特(bit),那可能就是 "bit dancing"。所以,在字节跳动的过程中,你觉得它会在空间的哪个地方跳动呢?这其实是一个非常基础的科学问题。因为只要你知道它在空间的哪个位置,就可以用来理解机器到底是怎么想的、怎么思考的。
于是,我们一开始就研究了在高维空间的结构问题。后来我们使用数学方法进行了推导,借助了来自 Parisi 那条研究路线中的 Franz – Parisi 势能。这一势能形式大约在 1995 年提出,而我在 2013 年发现它在神经网络中存在对应关系,这是第一次实现这样的映射。我们算出来之后,会发现这个高维空间很奇怪,就长得像高尔夫球洞——它不是连成一片的,而是一个个分开的。当然,高维空间很难想象,但是你可以把它映射到低维空间,一个类比就是相当于三维空间中的高尔夫球洞。
这个事情出来之后,就不得了了。有很多人去想:当我们用反向传播(backpropagation)或随机梯度下降(SGD)算法去寻找最优解时,算法能否真正找到这些 " 球洞 "?因为正如打高尔夫一样,要精准击中球洞并不容易。后来,人们发展出一种新的数学工具,结合了大偏差理论(large deviation theory)。这个很有技术性,但形象地说,他们发现在那些 " 球洞 " 周围,还存在一些 " 更大的洞 " ——即更容易到达的区域。我们称之为大偏差,或更广义的非平衡物理,因为它们超出了传统平衡态物理的刻画范围。
然后,人们就去研究这个很大的洞什么时候消失,发现这个很大的洞实际上会随着训练数据量,或者各种外部条件而消失掉。所以,消失之后,这个问题就变得很难。于是,它就立刻就跟数学或计算机中的 NP 问题(或者 NP 不等于 P)联系在一起,找到了一个统计物理计算的东西跟真实算法计算难度之间的基本关系。所以,从 2013 年开始,发展到今天还在进化。最近,MIT 的数学家提出了重合度间隙性质的概念,与我们更早前用物理导出的几何分离图景一致,这种几何图景于 2021 年也被美国的数学家严格证明了。这相当于它走向了可能解决 NP 到底等于 P 还是不等于 P,目前数学上还不能严格证明。这个就是从我们刚开始研究这种高维景观的物理学事情,最后走向了那一块,就是去刻画学习什么时候容易、什么时候难。这是一个根本性问题。这是我们课题组在国际上第一个被大家认可的工作,从 2014 年持续影响到现在,还有人不停地在引用我们提出高尔夫球洞的那个工作。
后面,我就大概转向了无监督学习,就是 Hinton 的受限玻尔兹曼机,到底它在学习的时候是什么样的内部机制。简单来讲,数据驱动了对称性破缺,这个最近也被意大利物理学家证明在更复杂的神经网络学习中具有普适性。最近我们研究了大模型的示例泛化,把它跟伊辛模型对应起来,解释了通用人工智能为什么是可能的,而为什么它目前来说是不可能理解物理世界的。我们最近也发展出了很多动力学的方法,想用动力学的方法去重新替代 Transformer 和生成扩散模型。当然,这个方向我们还在进展当中,还没有最终形成统一的认识,但跟大脑紧密联系。
Q5:未来会朝向哪些方向继续展开?
:我们想发展出一条自己独有的道路。最终的目的,是看能否用物理学的第一性原理来统一我们现在看到的纷繁复杂的各种神经网络架构、各种算法、不同表现与性能等。我们相信,从物理学角度,一定存在一个简单的第一性原理,只需画出图像或给出直观解释,就能把问题说明白。
所以,我们瞄准这一未来方向。这一方向也与我们之前所说的 "AI 的物理学 " 相一致:其背后的数学尚未被创建,我们同样以此为目标。就说假如 20 年之后,你要跟那时候的大学生去讲解 AI 或大模型的机制时,是否能提出一个易于理解的 principle(原理),尤其是物理学视角下容易把握的 principle。沿着这条 principle,把我们所说的 " 第三条故事线 " 讲清楚。所以,这个就是我们未来想要达成的一个基本目标。
AI 的物理学的三层标准
Q6:如何看待新概念,例如 "AI 的数学 ""AI 的物理学 "?
:现在我们谈 "AI 的可解释性 "。无论是 "AI 的数学 " 还是 "AI 的物理学 ",本质上都是可解释性的内容。它实际上有三层标准。
第一层标准,我提出一个 C(computation,计算)就是第一个级别。你告诉我 "AI 的数学 "、"AI 的物理学 " 都可以,但首先必须说明你要解决什么问题,这个问题背后的 computation 是如何实现的。比如,大模型能做泛化、做推断,那么它背后的 computation 是什么?但是,需要注意的是,如果你从可解释性去讨论的话,computation 不能简单等同于 " 给我看一整套训练代码 "(例如 deepseek 的训练代码),那样没有意义。如果这个是 computation 的话,那很多东西都被解释了,所以它没用。真正的 computation,应当类似 Hopfield 的做法:要理解记忆问题,可以用 " 小球在能量景观上滚动 " 的图像,将滚动过程表述为蒙特卡罗采样,并可用数学加以解释,这才是 computation。但是现在的话,我们所有的大模型里面,很多东西不论你是用怎样的概念去解释,到目前为止,无法定义这个 computation 的事情,因此在第一个层级上就过不了关。
当 computation 被定义后,第二个层次是 M(mechanicsm,机制)。就是你必须把那个机制搞清楚。然后,机制搞清楚的话,实际上是一种降维的过程。我们知道,大模型的 computation 具有极高维度,比如有几万亿参数;这些参数的运动如何被简化为有限维、可求解和可研究的数学表达式(积分方程或微分方程均可)?维度不能与原始维度相同,否则无法理解。能否将其降到一个 " 比较漂亮的低维方程 ",然后去理解背后的这个机制。在 Hopfield 模型中可以看到:它把数千个神经元的运动降到一维函数方程的求解,用一维去理解高维,而且做到了。大模型若要真正达到可解释,也必须达到这一层级。
第三个层次是产生可验证的假说 ( hypothesis, 简记 H)。一方面是从实验去证实,另一方面可以去改造或设计算法。当模型完成 " 可解释 " 之后,接下来能做什么?对我们设计新的算法有没有帮助?对我们去研究大脑的的相关假说有没有帮助?如果这两个都没有,那可能不是一个好的理论。
因此,需要以 computation → mechanic → hypothesis 或算法上的贡献,那么你才能够强调这是 "AI 的数学 ",或者 "AI 的物理学 "。所以,我们可以想象在未来,如果我们大家能写一本书,来讲述这个 21 世纪初期人类创造出来的智能体的时候,即便不逐条写明这三个 principle,但是要让学生去读的话,能够感受到我们是沿着这三个 principle 将问题讲明白的。这就是我们的最终标准。
研究 AI 的物理学指向理解人类自身
Q7:AI 的物理学真的能建立起来吗?
:我认为,这本质上是一种信仰的问题。为什么这样说?因为在许多时候,我们的科学研究并不知道最终答案。但最重要的是,保持强烈的好奇心以及一种信仰:不论走到哪里,只要一步一步推进、不断敲打问题,每次都能敲出一点东西来,我就会感到开心。如果你有这样的想法的话,那么我觉得你,很多时候会享受很多 exciting 的时刻。
然后,另外一个更大的信仰,这也是我个人的信仰:我相信,世界上我们所看到的一切,都是数学。假设存在 " 上帝之手 " 的话,那么它是通过数学创造世界的。最简单的例子是:万物由原子构成,而在微观尺度,我们可以用量子力学来表述,用波函数来描述微观运动,而波函数的本质就是一个函数。在这一层面上存在波函数,那么在更大的层面上,无论是计算机算法还是智能,那它背后是不是最终就是一个 number?或者用安德森的话来说,任何复杂性都从简单性中涌现,是由不断的规模效应所产生。
如果你相信这种 " 从简单到复杂,或者从复杂到简单 " 是可能的话,那么你将保持你的好奇心去探索,然后你能够享受你探索的这个路程的每一处风景。最后我总结一下:当任何一个人询问 "AI 的物理学是否可能 " 时,可以反问自己——黎曼猜想如此困难,为什么仍有那么多数学家愿意投入去解决它?
Q8:如果 AI 的物理学建立起来会带来哪些改变?
:如果有一天这一问题被解决,那么从 " 飞机设计 " 这一路径来看(人类已经走过来的一条路),结果将类似于我们今天的出行:可以方便地飞往远方,并且安全、有保障。所以呢,从这一点来看的话,一旦被解决,必将在某种意义上把人工智能推升到一个更安全、更可靠、也更令人信服的层次。至于那时候那个智能大概长什么样,我们现在无法想象,但可以肯定的是,它会比今天更好(better)。但是不是 best 我们不知道,better 这个是一定的。
但是,我认为最重要的是:寻找 "AI 的物理学 " 的首要目标,并不是解决 AI 本身,或创造更好的 AI。对科学家而言,更重要的是理解 " 人 " 本身。为什么这样说?在 AI 研究中,你总是会想象一个事情,就是说这个智能到底是从哪里来的?智能与意识的关系是什么?为何人类能够创造出智能体?为什么人类现在被很多精神疾病所困扰?或者说我们人类衰老为何伴随大脑的退化?
如果把大脑视为一个超级高维系统,那么当我们建立起 "AI 的物理学 ",这个高维数学的基本理论,能不能用来理解我们大脑的很多疾病,等我们衰老的时候,我们能不能去控制,甚至我们年轻的时候,我们能不能去控制我们的精神状态,那么这个是惠及人类本身的。
即使没有 DeepSeek、没有 ChatGPT,只要我们能够在某种意义上理解人的感知与精神状态,那便意味着一种 " 自然科学对人文科学的入侵 "。过去,我们常以文学来 " 净化心灵 ",比如阅读《百年孤独》等经典作品。但是,我们有一天能不能用数学,去搞清楚我们的精神状态?
在这一意义上,我们不仅理解自身。我也相信,任何优美、能够刻画自然规律的数学,必然会带来源源不断的财富与应用,我觉得那个是副产品,而不是终极的目标,我们终极的目标是理解自己。也只有如此,才能保持强大的好奇心去研究。所以我觉得有一个比喻很夸张,你研究神经网络就是研究你自己。
Q9:" 如果物理学不存在,可能只剩关联或动力 ",如何理解?
:当然,这是一种猜想。就目前而言,只要是基于大模型的系统,其中大模型本质上是在刻画统计关联。它通过计算 attention matrix(注意力矩阵)进行打分,以一个很大的 block matrix 为载体,输入 token 后不停地计算它的关联,然后就能识别出某种规律或函数。
从人类的理解方式来看,这些 " 函数 " 需要被清楚地写下来、被认识与研究,这才叫 " 搞清楚 "。但是大模型不用,通过这种打分,实际上它本质上不需要知道这个函数。这一点颇为诡异,会促使人反思:我们人类迄今创造的一切知识,或自然现象的呈现,是否都可以通过一个 " 关联打分矩阵 " 把它再现出来?或者说,只要找到这个矩阵,所有规律都没必要把它清晰地写下来?这很可能是当今以 Transformer 为代表的人工智能努力的方向。
然而,如果你的目标在于 prediction(预测)——例如蛋白质折叠,或我们在生命科学、天文数据分析等领域的研究——其实更关心的是预测能力。如果你关注这一点,我认为大模型完全可以把整个人类的知识体系,通过矩阵及其变换来刻画其 " 关联 "。
至于 " 动力 ",可能是未来的一个方向:因为动力过程更接近类脑。可以想象,我们的思维可能是一种动力过程。它与大模型不同:我们并不需要消耗巨量算力与数据,我们感知世界是被动力学预测的,但我们有记忆系统(memory system),需要睡觉来管理记忆,所以很多时候,我们有很多生理的现象,会跟计算捆绑在一起。因此,这是一种持续的 dynamics(动力学)过程,然后这一个过程到底隐藏着什么样的秘密、与思维和意识什么关系,我们还没有搞懂。
但不可否认的是:迄今为止,人类对自然界的理解,都是通过 " 动力系统 " 完成的,这个动力系统就是每个人的大脑。把知识写成书,相当于获得一种额外的记忆,是大脑记忆的延拓。大科学家之所以写书,是因为人的寿命有限;那如果他不通过写作表达他的作品的话,那可能他就没有办法被人类社会延续下去。况且大脑会衰减,可能出现阿尔茨海默病等问题。将记忆系统延拓到存储硬盘、计算机与互联网,本质上是一种 " 迁移 "。
如果把 " 关联 " 与 " 动力 " 这两部分吃透,那么有一天,若你关心 prediction,世界上可能就没有太多难题。因为你所有的创造,归根结底,由背后的 " 关联 " 与 " 动力 " 这两个方向所决定。
本文根据访谈内容进行了书面化整理,内容删减仅涉及重复表述与非核心细节。
本文为科普中国创作培育计划作品
受访者:黄海平 中山大学物理学院教授
创作团队:集智俱乐部
审核专家:张江 北京师范大学系统科学学院教授
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

神经网络的统计力学

1. Nature 计算科学最新:统计物理 x 机器学习用于求解组合优化问题
2.


登录后才可以发布评论哦
打开小程序可以发布评论哦