导语
大语言模型的涌现能力是一个有趣的现象,也是研究的一大挑战。复杂性科学领域的学者早在大语言模型诞生之前就一直致力于破解涌现谜题,衍生出了自组织、分形等重要概念,所以研究大语言模型的涌现也是复杂性科学与当下最前沿技术的一次对话。我们要如何量化和解释大语言模型的涌现现象?作为一个复杂系统,它的内部结构究竟发生了什么样的演化?来自田纳西大学的助理教授肖熊烨老师的团队在这方面有一个最新的进展,通过多重分形分析的方法来回答我们关于大语言模型涌现的困惑。
关键词:大语言模型、涌现、分形、利普希茨 - 霍尔德指数、多重分形谱
杨明哲丨作者
肖熊烨丨审校
引言
如今,大语言模型(LLM)的技术仍在飞速发展,人们还在训练更大规模的 LLM。除了神经标度律给予我们信心,让我们相信更大规模的 LLM 会有更出色的表现,大语言模型的涌现现象也让我们期待 LLM 会在规模超过一定阈值后,给我们意想不到的惊喜。2022 年,Jason Wei 等人正式提出大语言模型的涌现能力这一概念。此后,越来越多的学者开始研究对大语言模型的涌现的度量和解释。
讨论这样的话题,我们首先需要对涌现(emergence)这一概念本身进行阐述。根据 Goldstein 在 1999 年给出的说法," 涌现是指在自组织过程中出现新颖且连贯的结构、模式和特性 "。单看这样一个定性的定义,涌现实际上与自组织(self-organization)过程有关。自组织同样是复杂性科学中的一个重要概念。自组织是指一个集体系统驱动自身走向更有序状态,并在面对扰动时保持其功能的能力。比如团结的蚁群,自发生成的图灵斑图等,都是自组织的典型案例。它们都是在没有外部设计的情况,通过微观个体彼此交互,从而在系统层面产生了超越所有个体的宏观性质。
观察生物界的这些案例,我们发现,出现涌现现象不只是因为一个系统很大,更在于组成单元之间要有复杂的交互。同样的道理,在研究 LLM 的涌现时,我们也不应只关注模型的规模,而是应当关注神经元之间的交互作用。这正是肖熊烨团队在新研究工作中所强调的。除了关注模型大小的变化,他们还关注涌现程度随训练次数的变化。
神经交互网络
为了能对 AI 的结构进行分析,我们要将一个 LLM 转化为一个神经交互网络(Neuron Interaction Networ,NIN)。NIN 是一个有向图,图中的节点就是人工神经网络里的神经元,而连边上的权重则是原始权重的绝对值的倒数 ω ab = |wab|-1 ——即原始权重越小,表示两个神经元之间的距离越大。转换过程如下图所示。
在这个图上,我们可以定义两节点之间的最短路径距离。
从公式中可以看出,该距离由两部分组成,第一部分是考虑连边权重的最短距离,而另一部分则是路径节点数量。超参数
则在调控两部分的占比。进一步的,我们可以定义一个节点的邻居。给定一个阈值,所有和某节点的最短路径距离小于该阈值的节点都是该节点的邻居。
对于一个阈值(半径)来说,邻居数量可以说是一个盒子(圆)所覆盖的 " 质量 "。下图 a 中便是在展现,随着盒子半径(r)增大,其覆盖的质量也一定在增大。而在真实实验中观察到,质量与半径呈现出一种幂律关系(如图 b 所示)。这说明,我们可以假设神经网络中存在着分形结构。
什么是分形
对于初识复杂性科学的读者,这里有必要介绍一下什么是分形(Fractal)。1975 年,曼德布洛特首次提出 " 分形 " 这一概念,大名鼎鼎的分形图案曼德布洛特集就是以他的名字命名的。他认为,分形是由与整体在某些方面相似的部分构成的图形。从这张图中我们可以体会到,当你对其中某一个局部不断放大观察时,会发现局部的图形和它整体的形状是相似的。也就是说,你在任意一个尺度上去观察它,得到的都是一模一样的结果。像这样的分形特性,在大自然中非常普遍,包括海岸线、山脉、作用性细胞骨架等等。所以具有分形性质的系统有着巨大的研究价值。
不同的分形系统有着不一样的分形维数。分形维数的计算如下式所示,是描述分形的一个重要参量。它的含义便是,你用一个盒子(平面上便是一个小正方形或圆)去覆盖一个个分形体。随着盒子半径的变化,覆盖的分形体数量也会以幂律的关系发生变化,这里的幂律指数便是分形维度。
对于分形更进一步的介绍,读者可参考文章。回到 LLM 上,我们发现作者构建出的相应的 NIN 有着分形的特性,可以在分形的假设下展开进一步的研究。
多重分形分析
正是基于这样的背景,肖熊烨团队提出了基于神经元的多重分形分析(Neuron-based Multifractal Analysis,NeuroMFA)的框架。他们首先定义了 NIN 的配分函数:
其中
表示 l 层中的节点 i 在某个半径 r 下的邻居数量占该节点所有邻居数量的比例。作者们发现,配分函数的大小与当前半径和最大半径的比值有着一个幂律关系,幂指数和失真因子 q 有关。
这里的幂律指数 Τ ( q ) 被称为质量指数。经过勒让德变换,便可以进一步得到利普希茨 - 霍尔德指数 α ( q ) 和多重分形谱 f ( α ) ,其计算公式分别如下所示,
这里涉及的抽象概念比较多,我们重点解释最后得到的两个核心指标。α ( q ) 就像城市里一个 " 崎岖度 " 探测器,用来衡量系统里某个局部区域的个体分布有多么不规则。在 NIN 中 α ( q ) 衡量的是神经元局部连接模式的规整性。一个低 α ( q ) 值意味着该区域的神经元连接方式很均匀、有秩序;一个高 α ( q ) 值则意味着连接方式很混乱、无序。f ( α ) 则像一幅城市复杂性地图或全景图。它告诉我们,拥有不同 " 崎岖度 " ( α ) 的区域在整个城市中有多常见。f ( α ) 值越高,说明这种类型 ( α ) 的区域越多。
我们把出现频率最高的区域类型挑出来,它的不规整程度便可以代表整个系统的不规则性。如下式所示,我们定义了不规则度 α 0。
我们还可以计算多重分形谱的谱宽,即最不规则区域和最规则区域的差异有多大:
这便是系统的异质性指标。从多重分形谱的最小值调到最大值,背后的调节器就是计算配分函数时引入的因子 q。它是人为给定的参数,就好像是我们使用的不同倍率的显微镜。当 q 是极大的正数时,它会放大那些连接稠密(对于较小的 r 就有非常多的邻居)的区域的作用(在配分函数中的占比),因为被放大的是那些接近 1 的 pl,i ( r ) 。与之相反,当 q 是特别大的负数时,被放大的就是那些连接非常稀疏(只有 r 非常大时才有较多的邻居)的区域。当 q 约为 0 时,所有区域都被抹平为同质的区域。
涌现的度量
有了不规则性和异质性的度量,我们便可以定义如何计算涌现了。如下式所示,涌现是一个与时间有关的指标。
它由两项相乘而得。第一部分与异质性有关,它的含义是,在某一时刻,如果异质性更高,那么涌现的程度便更高。第二部分与不规则性有关,如果 t 时刻不规则程度更低,那么系统就有更高的涌现程度。其中这些指标与 0 时刻的数值做比值,可以理解为是对指标 E 进行标准化处理。可以看出,该指标依赖于神经网络结构以及时间的变化。在该指标度量下,涌现程度高的 LLM(NIN)应该是有着多种多样规整的斑图的大系统。
实验分析
下图展示了对不同规模的 Pythia 系列模型(从 14M 到 2.8B 参数)在训练过程中的内部网络结构演变进行的可视化分析。每张子图的横轴是利普希茨 - 霍尔德指数,纵轴是多重分形谱。从蓝色的线到红色的线,代表着训练迭代次数越来越多。
可以看出随着训练的进行,多重分形谱越来越宽了,这意味着系统内部的异质性越来越高了。这就像一个城市从单一的村庄发展成拥有金融区、住宅区、工业区等多种功能区的繁华大都会。而对于规模较大的模型,到了一定程度,多重分形谱就不再显著变宽,开始出现向左漂移的现象。这意味着不规则的程度在降低,即频率最高的利普希茨 - 霍尔德指数在变小。这种不规则程度降低的现象在很小的模型(14M)中是不存在的。
另外,文章中将涌现度指标与两个公认的下游任务性能基准(Lambada OpenAI 和 PIQA)进行比较,发现它们之间有很强的相关性。
下图则是用一张雷达图展示了涌现度指标与其他四个下游任务基准的关联。这些任务基准分别是:
A: LAMBADA - 评估模型的语境理解和长距离依赖处理能力。
B: SciQ - 评估模型的科学知识和推理能力。
C: PIQA - 评估模型的物理常识推理能力。
D: ARC-easy - 评估模型的基础科学知识和简单推理能力。
下图则展示了不同模型大小下,不同训练程度时,各个指标的得分情况。它揭示出,训练充分时判断模型涌现的必要条件,当训练不充分时(Epoch 512),所有指标得分都近乎为 0。而当训练足够充分后,所有指标的变化趋势都是类似的,都会随模型变大而增长。
总结
这篇工作开创性地以多重分形分析的视角来研究 LLM 的涌现现象,把我们对一个具有涌现的复杂系统网络的期待能够量化出来,并且在实验上与下游任务表现做了验证。这为我们理解大语言模型在发展时,内部结构究竟发生了什么样的变化提供了一个洞察的视角。
相比于以前对涌现的研究,它还探求了随着训练进行涌现度的变化。不过文章中并未阐明这与 LLM 的顿悟(grokking)现象的关系,有待进一步区分和研究。另外,它是否能识别(甚至预测)大语言模型涌现的突变点(模型大小的临界阈值)也是一个有趣的问题。
如今,我们已经有很多从复杂性科学视角研究 LLM 涌现的学术工作了,包括分形、渗流相变、信息涌现等等。感兴趣的朋友可以进一步阅览集智百科对于该问题梳理的词条(见:通用人工智能的黎明:计算视角的意识理论综述)。
大模型可解释性读书会
集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型 " 黑箱 " 困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:
自下而上:Transformer circuit 为什么有效?
自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?
复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?
系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?
五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破 AI 可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型 " 黑箱 " 的思想盛宴。
读书会已于 2025 年 6 月 19 日启动,每周四晚 19:30-21:30,预计持续分享 8-10 周左右。
登录后才可以发布评论哦
打开小程序可以发布评论哦