量子位 6小时前
Hinton加入Scaling Law论战,他不站学生Ilya
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

我并不认为 Scaling Law 已经完全结束了

正当学生 Ilya 为 Scaling Law" 泼下冷水 " 时,他的老师、AI 教父 Geoffrey Hinton 却毅然发表了上述截然相反的观点。

这一场面一出,我们不禁回想起了两件有趣的事。

一是 Ilya 几乎从学生时代起就坚信 Scaling Law,不仅一抓住机会就向身边人安利,而且还把这套理念带进了 OpenAI。

可以说,Ilya 算是 Scaling Law 最初的拥趸者。

二是 Hinton 后来在回顾和 Ilya 的相处时,曾大肆夸赞 Ilya" 具有惊人的直觉 ",包括在 Scaling Law 这件事上,Hinton 曾坦言:

当时的我错了,而 Ilya 基本上是对的。

比如 Transformer 确实是一种创新想法,但实际上起作用的还是规模,数据的规模和计算的规模。

但是现在,这对师徒的态度却来了个惊天大反转。

所以,这中间到底发生了什么?

Scaling Law 不死派:Hinton、哈萨比斯

紧随学生 Ilya,Hinton 在接受《Business Insider》最新采访时发表了对 Scaling Law 问题的看法。

他的观点相当明确——

Scaling Laws 依然有效,只不过当前正面临一些挑战(limit)

其中,最大的挑战无疑是数据缺失问题。

大部分高价值数据都锁在公司内部,免费互联网数据已基本耗尽。

而这个问题将由 AI 自行解决,即模型通过推理生成自己的训练数据。此处他还特意 cue 到了 AlphaGo 和 AlphaZero:

这就像 AlphaGo 和 AlphaZero 在规模小得多的情况下,为了精通围棋而生成数据一样。

对于这些早期程序,Hinton 直言当时没人担心数据不足,因为它会自我对弈,并以此生成数据。

照此,语言模型也可以采用同样的方法来解决 Scaling Law 面临的数据瓶颈。

而和 Hinton 同样支持 Scaling Law 的,还有谷歌 DeepMind CEO 哈萨比斯。

哈萨比斯曾在不久之前的一场峰会上表示:

我们必须将当前系统的规模化推向极致,因为至少,它将是最终 AGI 系统的关键组成部分。

甚至,它可能会成为整个 AGI 系统本身。

正如 Hinton 所言,哈萨比斯早就在 AlphaGo 和 AlphaZero 身上看到了让 AI 自主进化的无穷威力。

当初训练 AlphaGo 时,DeepMind 先让其学习人类棋谱掌握基础规则,随后让不同版本的程序通过数百万局自我对弈不断进化,最终击败了人类顶尖棋手。

而到了 AlphaZero,DeepMind 更进一步,彻底摒弃人类数据,仅通过 "Zero" 状态下的自我博弈,一天之内就让 AI 成为了 " 有史以来最厉害的国际象棋选手 "。

这些都让哈萨比斯逐渐坚信——通过规模化自动生成数据与自我进化,AI 最终能在各种任务上打败人类。

显而易见,这一判断恰好与 Hinton 关于 " 数据瓶颈可以被模型自行突破 " 的观点形成了呼应。

不过值得注意的是,哈萨比斯作为一位商业领袖、一位实打实的工程技术人员,他对 Scaling Law 的理解从来不止于 " 参数 × 数据 × 算力 " 的线性增长。

他倡导的是一种更系统、更广义的规模化,即模型规模、训练范式、环境复杂度乃至系统架构本身,都需要作为一个协同演进的整体被同步扩展。

这也是他为何反复强调构建 " 世界模型 "、整合 " 搜索 " 与 " 规划 " 能力的原因。他始终认为:

如果一个系统只能被动地拟合静态数据分布,那么无论规模多大,最终都会撞上天花板;而一旦模型被允许进入 " 可交互的环境 ",数据本身就会变成一个可被无限扩展的变量。

一言以蔽之,二人都认为 Scaling Law 本身没有问题,关键是如何突破当下遇到的瓶颈。

而且二人给出的解决思路在本质上高度一致,即让 AI 自行解决。

然而在 Ilya 看来,继续扩展规模已经 " 不划算 " 了:

这几年大家几乎都在喊 " 继续扩大!再扩大!"。但当规模已经这么大时,你真的会相信再扩大 100 倍就能彻底改变一切吗?

此言一出,外界纷纷认为 Ilya 这是在给 Scaling Law" 判死刑 "。

事实,果真如此吗?

Scaling Law 不够用派:Ilya、LuCun

实际上,要想搞清 Ilya 当下在想什么,我们还得回到 Scaling Law 这个问题本身。

Scaling Law 俗称 " 大力出奇迹 ",其核心思想可概括为——

随着模型参数规模、训练数据量和计算资源的持续扩大,AI 模型的性能会按照可预测的规律稳步提升。

这一规律在过去的 AI 发展中得到了反复验证,从 GPT-3 到后来的大模型浪潮,几乎每一次性能跃升都伴随着规模的数量级增长。

然而,从去年开始,关于 Scaling Law 的风向就开始变了。

起初大家争的还是归属权问题——

这个概念被 OpenAI 带火之后,一位 Meta 研究员找出了百度 2017 年发表的一篇论文,结果发现论文里早就谈到了 Scaling Law 问题,只是没有相关正式命名。

但仅仅到了年底,关于 "Scaling Law 见顶 " 的声音开始越来越多了。

也是在这个时候,已经离开 OpenAI 的 Ilya,在 NeurIPS 现场正式宣告了 " 预训练即将终结 "。

我们所熟知的预训练即将终结。

他认为,数据是 AI 的化石燃料,随着全球数据的限制,未来人工智能将面临数据瓶颈。

虽然当前我们仍然可以使用现有数据进行有效训练,但这一增长趋势终将放缓,预训练的时代也会逐步结束。

而未来属于超级智能,比如智能体、推理、理解和自我意识。

随着 Ilya 的发言, 关于 Scaling Law 的讨论被彻底引爆。

中间老东家 OpenAI 还跳出来附议了一波,只不过当时是为了宣传他们的 o 系列推理模型——

o1 核心成员 Noam Brown 表示,o1 代表的是一种全新的,以推理计算为代表的 Scaling。

就是说," 预训练虽然终结,但 Scaling Law 还没死 "。

再到后来,吵吵嚷嚷间,人们等来了 Ilya 创办的新公司,也是在这一阶段,Ilya 开始试着回答——我们在 Scaling 什么?下一步做什么?

他在公司宣布成立后的采访中表示:

过去十年深度学习的巨大突破,是一个关于尺度假设的特定公式。但它会改变……随着它的改变,系统的能力将会增强,安全问题将变得最为紧迫,这就是我们需要解决的问题。

从这里也能看出来,他开始逐渐强调一个观念——Scaling Law 变了

而这,也和他最新引起争议的 "Scaling Law 无用论 " 相契合。他在问出 " 你真的会相信再扩大 100 倍就能彻底改变一切吗 " 后表示:

会有变化,但我不认为仅靠更大规模就能带来根本性的转折。我们正重新回到研究时代,只不过这一次,我们手里多的是巨型计算机。

在他看来,目前主流的 " 预训练 +Scaling" 路线已经明显遇到瓶颈。与其盲目扩大规模,不如把注意力放回到 " 研究范式本身 " 的重构上。(即所谓重新回到 " 科研时代 ")

后来他还特意解释道,不是说继续扩展规模不会带来变化,只是有些重要的东西仍然会缺失。

至于缺失的是什么,尽管网友们狂轰乱炸了一番,但神秘的 Ilya 又 " 隐身 " 了。

既然等不到他的回答,那我们只能从一些采访中扒一扒蛛丝马迹了。

其中,我们就看到了这样一个关键词——情绪。Ilya 无意间提过这样一件事:

我碰到过一个例子,有一个人脑部受损,可能是中风或意外事故,导致他丧失了情感处理能力。所以他不再能感受到任何情绪。他仍然能言善辩,也能解一些简单的谜题,考试成绩也一切正常。

但他感觉不到任何情绪。他不会感到悲伤,不会感到愤怒,也不会感到兴奋。不知何故,他变得极其不擅长做任何决定。他甚至要花几个小时才能决定穿哪双袜子。他在财务方面也会做出非常糟糕的决定。

这说明我们与生俱来的情感在使我们成为合格的行动主体方面扮演着怎样的角色?说到你提到的预训练,如果你能充分发挥预训练的优势,或许也能达到同样的效果。但这似乎……嗯,预训练是否真的能达到这种效果还很难说

Anyway,在 Ilya 看来,Scaling Law 或许有用,但真的是否够用绝对大打问号

而另一个和 Ilya 同样对 Scaling Law 持怀疑态度的是 Yann LeCun。

LeCun 在今年 4 月的一场采访中表示:

你不能简单地假设更多的数据和计算能力就意味着更智能的人工智能

而且众所周知,LeCun 一直认为大语言模型无法实现 AGI,为此他还另行成立公司创业世界模型。

至此,表面上看,硅谷大佬们针对 Scaling Law 问题似乎形成了态度鲜明的两派。

但这时 Noam Brown 又站出来了(前面提到的 o1 核心成员),他表示:

如今的社交媒体往往会把 AI 辩论简化成两种夸张的刻板印象:

(A)怀疑派,认为大语言模型没戏,AI 纯属炒作。

(B)狂热派,认为万事已经俱备,ASI(超级人工智能)指日可待。

但如果去看看顶尖研究人员实际上说了什么,就会发现他们的观点有着惊人的共识:

(1)当前的范式即便没有进一步的研究突破,也可能足以带来巨大的经济和社会影响;

(2)要实现 AGI 或 ASI,或许还需要更多的研究突破(比如常提到的持续学习和样本效率);

(3)没人觉得 ASI 是天方夜谭,永远不会实现,分歧主要在于那些 " 突破 " 会是什么,以及它们来得会有多快。

这一总结也得到了 LeCun 的认同:

因此,此时回过头看 Hinton 和 Ilya 的分歧,其本质或许并不在于要不要 Scaling,而在于——

我们到底在 Scaling 什么?

参考链接:

[ 1 ] https://www.businessinsider.com/ai-Scaling-debate-geoffrey-hinton-ilya-sutskever-alexandr-wang-lecun-2025-12

[ 2 ] https://x.com/ilyasut/status/1994424504370581726

[ 3 ] https://x.com/ylecun/status/1994533846885523852

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

教父 顾和
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论