量子位 前天
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

何恺明残差学习奠基人的身份,也被 " 挑战 " 了。

为什么要说 " 也 "?因为发起讨论的,又双叒是我们熟悉的J ü rgen Schmidhuber—— LSTM 之父。

不过这一次,他不是要把功劳揽到自己身上,而是替 LSTM 的另一位作者Sepp Hochreiter发声:

残差学习这把改变深度学习格局的 " 钥匙 ",其实早在 30 年前就已经诞生—— Sepp Hochreiter 在 1991 年就在使用循环残差连接解决梯度消失问题。

有一说一,J ü rgen 争 title 也不是第一次了,作为深度学习的先驱者,J ü rgen 自认为自己的早期贡献被人为忽视了。

ResNet 发布的同年,深度学习三巨头BengioHintonLeCun在 Nature 上联合发表有关 DL 的综述论文,其中大量引用他们三人的自身成果,却对 J ü rgen 等人只字不提。

随即他们展开了长达多年的争论,尤其是在 18 年的图灵奖结果公布后,J ü rgen 更是洋洋洒洒写了篇援引 200 多条文献的小作文反击。

之后在GAN的原创争议上,双方也是争执不休,要知道 GAN 的提出者正是 Bengio 的得意门生。

而如今有关残差学习的创始之争,也是因为 J ü rgen 自认为将残差学习这一成果的发现完全归因于何恺明团队有失偏颇。

不过正如网友所说:

从 Hochreiter 到 ResNet,光芒随时间递归延续。阴影是被模糊的归属,但真理始终不变:1991 年的种子闪耀着每一层。

30 年前的第一次提出

J ü rgen Schmidhube 这次要讲的故事始于 1991 年。

当时还是 J ü rgen 学生的Sepp Hochreiter,正在着手撰写自己的博士论文,也正是在这篇论文里,他首次系统性分析了 RNN 的梯度消失问题,并提出用循环残差连接解决。

循环残差连接的核心思想相当简单:一个具有恒等激活函数的神经单元自连接,且权重固定为 1.0,使其在每个时间步中仅将输入叠加到先前状态,该单元只作为增量积分器存在。

于是误差信号就能在反向传播中保持恒定,不会消失或爆炸。

不过与此前任意实数权重的自连接不同,只有权重严格为1.0,才能完全避免梯度问题。

接近 1.0 的近似值虽然可以接受,但衰减速度会随时间加快,例如 0.99 的权重下误差信号会在 100 个时间步后减少到原来的 37%(0.99 ¹ ⁰⁰≈ 37%),0.9 的权重则只有原来的 0.0027%(0.9 ¹ ⁰⁰≈ 0.0027%)。

但尽管如此,这也为后来的深度学习残差思想奠定了理论基础。

直到 1997 年,J ü rgen 和 Hochreiter 共同提出了著名的LSTM,在该理论的基础上实现了进一步的扩展。

LSTM 的核心单元是权重为 1.0 的循环残差连接,也就是恒定误差轮盘(CECs),这一机制保证了误差可在数百乃至数千时间步中保持不衰减,使 LSTM 能有效捕捉输入与输出之间的长时间滞后,对语音、语言等任务至关重要。

另外这篇 LSTM 论文也是20 世纪引用次数最多的人工智能论文

1999 年,LSTM 演变出新的形态vanilla LSTM,在原来的基础上加入了初始值为 1.0 的遗忘门,使其具备可控的残差连接,既能保持长时依赖,又能在需要时重置记忆。

虽然这样做会重新引入一定的梯度消失,不过整体仍然处于可控状态。

到 2005 年,通过时间反向传播 (BPTT)算法,LSTM 可以展开为深度前馈神经网络 (FNN),让每个输入序列的时间步都对应一个虚拟层,从而大幅增加了网络深度,可以处理更长时间滞后。

而无论是循环还是前馈,残差连接始终依赖权重固定为 1.0。

接下来就是众所周知的 2015 年,首先在同年 5 月,需要优先提及Highway 网络的贡献。

此前,基于反向传播的前馈神经网络的深度有限,只有 20 到 30 层,直到 Highway 网络的出现,才首次成功训练出上百层的深度前馈网络,比过去要深 10 倍以上。

其核心是将 LSTM 的门控残差思想从循环神经网络引入前馈网络,每层输出为 g ( x ) x+t ( x ) h ( x ) ,其中 x 是来自前一层的数据,g、t、h 表示带实值的非线性可微函数。

关键的残差部分 g ( x ) x 初始化为 1.0,让 Highway 网络既能保持类似 ResNet 的纯残差连接,又能根据任务需要,以依赖上下文的方式自适应调整残差流,从而大幅提升深度可训练性。

最后再到 12 月,ResNet在 ImageNet 竞赛中大获成功,彻底将残差学习带入大众视线。

ResNet 在残差部分设计上,与展开的 LSTM 以及初始化的 Highway 网络相似,如果将 Highway 网络的门恒定设置为 1.0,就可以得到纯残差网络 ResNet,而它们本质上都是 1997 年的 LSTM 前馈变体。

ResNet 的残差连接允许误差在深层网络中稳定传播,使网络能够训练数百层,但 J ü rgen 也指出,ResNet 论文中并没有明确说明它实际上就是开部门控的 Highway 网络,二者之间存在相似的标准残差连接。

总结就是,LSTM 与 Highway 网络分别奠定了循环和前馈网络的深度训练基础,ResNet 则将这一原理成功应用于前馈网络,延续了自 1991 年 Hochreiter 首创的残差思想。

One More Thing

不过,这种说法目前仅代表 J ü rgen Schmidhuber 的个人观点。(叠甲 doge)

因为这已经不是他第一次对著名神经网络的起源提出质疑。

早在 2021 年,他就公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN 以及 Transformer,都是受到了他实验室成果的启发

例如他认为 AlexNet 和 VGG Net 采用了他们的 DanNet;GAN 是对他在 1990 年提出的 Adversarial Curiosity 原则的应用;Transformer 的变体,即线性 Transformer,是对他提出的快速权重存储系统的延伸。

但除了无可争议的 LSTM 归属,其他几项至今都没有得到普遍认可。

甚至衍生出这样一种说法:"Schmidhuber is all you need."

参考链接:

[ 1 ] https://x.com/SchmidhuberAI/status/1972300268550369631

[ 2 ] https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html

[ 3 ]

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

深度学习 三巨头 文献 作文 图灵奖
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论