从小老师就爱说 " 好记性不如烂笔头 ",那么我们为什么不给有 " 记忆缺陷 " 的大模型配一个小本本记上总结归纳的要点呢?
继著名的 "Attention Is All You Need" 之后,谷歌新论文再度引爆圈内:我们可能忽略了 AI 的 " 另一半大脑 "。
这篇文章题为
嵌套学习:深度学习架构的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
在圈内被誉为是 "Attention is all you need"V2

你是否曾对 AI 感到一丝 " 恨铁不成钢 "?你刚刚在对话中详细解释过一个概念,三句话之后它就可能完全遗忘,仿佛从未发生。ChatGPT 们上知天文下知地理,却学不会你今天刚教它的一件小事。

这并非偶然的 Bug,而是当前所有大型语言模型(LLMs)共同的 " 先天疾病 " ——数字失忆症。
为了 " 治疗 " 它,过去十年,整个行业几乎只遵循一条黄金定律:把模型做得更深、更大。我们不断堆叠 Transformer 层,追逐万亿参数,相信 " 规模即智能 ",期待着记忆相关的能力也能 " 涌现 " 出来。
但是,这个努力方向有着明显的问题:仅提高算法复杂度可能并不会使能力显著提升。
具体而言,深度模型的计算深度可能不会随着层数的增加而改变,模型的扩大对某些参数的容量提升影响十分有限,快速适应新任务、持续学习以及泛化性也很难通过参数量堆叠 " 自发涌现 "。另外,受限于优化器,训练过程可能收敛到一个次优解。
近日,谷歌一项颠覆性的研究指出,我们可能忽略了一个与 " 深度 " 同等重要、甚至更为根本的维度。
这项名为" 嵌套学习 "的研究,正以燎原之势在学术圈内引发地震。许多资深研究者将其私下称为"Attention is All You Need" V2。它没有提出新的炫酷模块,而是试图回答了那个最根本的问题:机器学习的本质,究竟是什么?
一切颠覆性的认知,往往始于对常识的重新审视。研究团队选择了一个最基础、最不被注意的起点:优化器。
无论是经典的随机梯度下降,还是如今广泛使用的 Adam,我们都将其视为训练模型的 " 引擎 " 或 " 导航仪 " ——它计算梯度,指引参数朝损失下降的方向前进,仅此而已。
然而,这篇论文给出了一个反直觉的证明:主流的优化器本身,就是一个持续进行着 " 记忆 " 的关联记忆系统。
这是什么意思?想象一下,优化器不仅在看当前的路况(即时梯度),它内部还有一个默默做笔记的黑盒子。这个盒子不断压缩、存储一路走来所有梯度变化的 " 模式 " 与历史。当我们以为自己在做 " 训练模型 " 这一件事时,实际上已经不知不觉地运行了多个嵌套的、在不同时间尺度上并行的小型学习程序。
这个发现,成为了撬动整个新范式的支点。它意味着,从最底层的优化器,到中层的注意力机制,再到整个神经网络,都可以被统一地重新审视——它们不再是功能各异被拼凑起来的零件,而是在不同速度、不同抽象层级上,嵌套运行的 " 学习 - 记忆 " 模块。
我们熟悉的、引以为傲的 " 深度学习 " 体系,从这个全新的视角看,仅仅是这个更宏大、更立体范式的一个扁平化投影。

基于这一核心洞察,论文提出了一个简洁而深刻的新范式:嵌套学习。它认为,真正有效的智能学习需要两个正交的维度:
1. 深度:即模型的层数与容量,这是我们过去十年全力拓展的。
2. 频率:即模型内部组件自我更新的节奏与速度,这是我们先前几乎完全忽略的。
人工智能的进步常受到人脑的启发,这次也不例外。
人类之所以能持续学习、终身成长,是因为大脑同时用多种 " 生物时钟 "在工作。有些神经元回路快速反应,处理瞬息万变的感官信息(如正在进行对话);有些则缓慢而坚定地巩固,将重要模式沉淀为长期知识或技能。这是一个连续、平滑的时间频谱,信息在不同频率的 " 通道 " 间有序流动、加工和储存。
而当前的大模型就像得了 " 顺行性失忆症 ",这种病的患者在病症发作后无法形成新的长期记忆,但此前的既有记忆则保持完好。这种状况将患者的知识与体验局限在两个时间片段:一个是很久远的过去(发病之前),另一个是极其短暂的现在。患者会不断地经历每一个 " 当下 ",仿佛它们永远是崭新的、无法被记住的。
这与当前的大模型情况相似,只有两种极端的工作频率:一种是快速响应但转瞬即逝的对话缓存,另一种是在预训练完成后便冻结的长期知识。它严重缺失了中间所有频谱的 " 记忆通道 "。因此,任何新知识都无处安放,要么在对话结束后遗忘,要么覆盖旧记忆为代价以高昂的计算成本更新——这正是 " 数字失忆症 " 的根源。

全新的理论,需要全新的架构来证明。基于 " 嵌套学习 " 范式,研究团队构建了名为HOPE的新型架构。其核心创新是一个连续记忆系统。
这不再是一两个孤立的记忆模块,而是一系列像光谱一样排列的 MLP 模块。每个模块都以预设的、不同的频率进行更新。信息输入后,会在这些不同节奏的记忆模块间自动流动与分配:
高频模块像 " 工作记忆 ",快速捕捉对话中的即时细节与上下文。
中频模块像 " 近期记忆 ",负责提炼和归纳一段时间内出现的模式。
低频模块像 " 长期记忆 ",缓慢而稳定地将最重要的知识沉淀为模型固有能力。
这个过程,高度模仿了神经科学中信息从海马体向新皮层转移、巩固的经典机制。在初步实验中,HOPE 已经在标准语言建模和常识推理任务上展现了强大的竞争力。

更重要的是,它显露出了解决持续学习问题的巨大潜力——新知识可以在这条 " 记忆光谱 " 上找到自己合适的位置,被渐进式地消化吸收,而非引发系统性的崩溃或遗忘。
" 嵌套学习 " 的价值,或许不在于明天就取代 Transformer,成为大模型的主流骨架。它的深远意义在于,提供了一套全新的设计逻辑和思考框架。
它的成功启示我们,下一代 AI 的突破,不一定依赖于发明更复杂的 " 神经元积木 ",而在于为 AI 设计一套能激发潜能的框架。这正是其被誉为 "V2" 的原因——如同 2017 年 " 注意力 " 机制统一了序列建模的视野," 嵌套学习 " 正试图为学习过程本身,构建一个统一、可解释的 " 白箱 " 模型。
当然,这仍是非常前沿的探索,这场关于 " 记忆 " 与 " 学习 " 本质的重新思考,才刚刚拉开序幕。人工智能的未来,或许不仅需要更深的网络,更需要一个能够学习和演化的系统,而不仅仅是作为一个静止的、被凝固在训练完成那一刻的 " 知识琥珀 "。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦