量子位 7小时前
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

涌现,AI 沙场如今兵家争锋所期待出现的「境界」。

自从 Scaling Law 为模型带来惊人的能力增长后,几乎所有模型厂商都被卷入了一场无止境的 FOMO,没人敢停下来。

我觉得大模型最有魅力的地方,在于它是非线性变化,代表着极大的不确定性,但一旦出现性能涌现就将远超想象。

在量子位 MEET2026 智能未来大会上,清华大学人工智能研究院常务副院长,欧洲科学院外籍院士孙茂松如此感慨。

只要算力还能堆、参数还能涨,就不能停止烧钱。

然而,在 Scaling 的边际成本越来越高的背景下,万一最后发现这是条死胡同,投入全打水漂了怎么办?

孙茂松的建议是,可以「致广大」,但更要「尽精微」。

就企业界而言,少数实力极其雄厚的团队,可以尝试在「致广大」方向上继续跟随国际前沿;但绝大多数 AI 公司,都应该把主要精力放在「尽精微」上。

为了完整呈现孙茂松的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能提供新的视角与洞察。

MEET2026 智能未来大会是由量子位主办的行业峰会,近 30 位产业代表与会讨论。线下参会观众近 1500 人,线上直播观众 350 万 +,获得了主流媒体的广泛关注与报道。

核心观点梳理

当模型规模、数据规模持续增大时,可能会出现能力涌现。这种高度非线性变化所带来的不确定性体现了大模型最有魅力之处。预计未来几年,有标准答案的人类最难考试可能也难不住机器。

当下大模型和具身智能面临的本质挑战在于——如何理顺「言、知、行」的关系,让机器真正实现「知行合一」。这个问题的「求解」,非常困难,关涉 AI 的重大理论和基础方法创新。

Scaling Laws 到底能走多远,具有相当的不确定性。任何信息系统发展到一定阶段通常就会呈现趋于饱和的倾向。不过,一旦出现了新的涌现现象,又能打破这种饱和。所以国内仍需有少量顶级团队紧跟全球前沿发展,探索 Scaling 极限。

未来几年内,人形机器人要进入通用开放环境自主进行较为复杂的工作几乎是不可能的。应立足于在尽可能多的特定真实场景或真实任务上实现 AI 应用「星火燎原」式的落地发展。这是完全可能的(但机器人不一定是人形),也应该是绝大多数企业应下大力气去做的。

以下是孙茂松的演讲全文:

突飞猛进的八年

我演讲的题目是《生成式 AI 和大模型:前沿态势、核心挑战及发展路径》。坦率说,这个题目不太好讲,全世界都在讲这个问题,我讲讲自己的一些粗浅的认识。

基于深度学习的 AI,在 2017 年前后进入了预训练模型和大模型时代。到现在,只花了 8 年时间。

△来源:「大模型简史」

这 8 年里有几个比较关键的时间节点:

2020 年 GPT-3 发布,距今大约 5 年;

ChatGPT 发布至今约 3 年;

DeepSeek 出现,也才刚满 1 年。

这 8 年走过了好几重天,应了一句古话——「苟日新、日日新、又日新」,这基本就是这几年大模型发展的常态。

特别是最近几年,通过长思维链,大模型解决复杂任务的能力急剧上升,呈现出千帆竞发的态势。

我们为什么对大模型这么痴迷?它最重要的特点是:当模型越来越大,数据量越来越大时,普遍会产生能力涌现,这是过去模型所没有的。

一旦出现能力涌现,就变成了一个非线性变化,不知道从哪就一下拐上去了。

如果你去做一件事没有产生性能涌现,可能就平淡无奇。可一旦产生了涌现,可能就把你的竞争对手远远甩在后面。而这件事能不能发生,又无法提前知道。这是大模型最有魅力也颇令人困惑的地方。

这几年的发展进展很快,像文本大模型、图文大模型,几乎把所有 Benchmark 都踏平了。

来源:Our World in Data

有个叫作「Humanity ’ s Last Exam」的测试集(即所谓「人类最后的考试」),为了考住 AI,到全世界征集难题,要以前没出过、在网上没有答案的。

顶尖高手做这种题,可能拿 5 分就不错,但是现在大模型,能拿到三四十分。

可以预期,未来几年一切有标准答案的考试可能都难不住机器了,这是文本大模型的发展情况。

代码大模型的发展同样迅猛,今年的世界大学生程序竞赛,人类第一名已经做不过大模型了。此外,对多模态大模型的亮眼表现大家也都多有领教。

总体来看,文本、代码、多模态这几类大模型,已经发展到一个相当高的基础能力水平,这构成了我们今天讨论 AI 的「基本态势」。

在《思考,快与慢》一书中,Daniel Kahneman 提出了著名的系统一(快系统)和系统二(慢系统)。

经过这几年的发展,机器已经有了相当强的系统一和系统二的能力,这为 AI 走出文本世界、走向具身智能,奠定了非常重要的基础。特别是如果没有系统一的感知能力,机器进入现实世界后会「懵头懵脑」,什么也做不了。

我们常提到 1950 年的图灵测试。在语言层面,已经可以认为通过了图灵测试。

但在同一时期,控制论之父维纳在《控制论》中提出过一个同样重要的观点:

机器想具有智能,一定要让它走到现实世界去,它能够感知这个世界,能和世界打交道,在反馈中得到奖励或惩罚,并据此不断自我调整、自我学习。在这个过程中,才可能形成真正的智能。

今天看来,我们有了一定的条件去践行维纳的控制论,这会让 AI 再上一个台阶。

古话讲「言易行难」,陆游有句诗叫「纸上得来终觉浅,绝知此事要躬行」。

语言模型很擅长「言」,但一旦走到「行」,会有一个质的差异。

同时还有一句古话叫作「知难行易」。

大模型现在虽然「言」得很行,全世界知识好像都被参数化装进模型了,但它的「知」仍然是不完整的、不体系化的,缺乏自知之明。

如果完全没有「知」,「行」是没有意义的。

不过,虽然大模型的「知」并不完善,但毕竟七八成的「知」他知道了。所以现在做具身智能,有可能追求「知行合一」。

当然,「从「言」到「知」要难得多。这就构成了今天 AI 最大的挑战——怎么处理好「言、行、知」,做到「知行合一」?

AI 的巨大投入让华尔街「冒冷汗」,前路充满挑战

AI 发展是靠 Scaling Law,大模型、大数据、大算力。近几年有新的扩展:预训练、后训练、测试时。

但这里有一个前提条件:这个 Scaling 要起作用。

任何系统到一定阶段都会遇到瓶颈。一旦性能开始饱和,Scaling Law 就可能失效,再往里投钱,可能就会得不偿失。

我刚才特别强调一个点:大模型可能出现涌现,一旦出现涌现,往里砸的钱就砸对了。

但 Scaling Law 到底能走多远,这件事是个很大的问号。支撑 Scaling 的代价极其昂贵,太烧钱,太费电了。

法国《回声报》(法国经济类日报之一)11 月 3 日有一篇报道:「AI 领域的巨额投资,让华尔街直冒冷汗。」

华尔街向来是冒热汗的,能「冒冷汗」,说明这个投入确实太大了。

报道里提到几个数字:

OpenAI 目前的计算能力大约是 2GW;

计划到 2033 年提升 125 倍,达到 250GW;

对应的投资规模,可能高达 10 万亿美元,而这还不包括电力。

大家可以换算一下,一个核反应堆的平均发电能力,还不到 1GW。250GW,相当于 250 个核反应堆。这是一种极其激进的投入,同时也蕴含着很高的风险。

问题在于:我们现在不能不跟,万一它出现涌现,就又把我们甩到比较远的后面了。但跟的话,可能又跟不起。

再者具身智能。

李飞飞提出空间智能,本质上就是前面讲的「行」,这里面也面临一个理论和实践问题,Next Token Prediction 到底能走多远?

来源:https://glassboxmedicine.com/2024/04/28/human-and-artificial-general-intelligence-arises-from-next-token-prediction/

文本是完全靠 Next Token Prediction 做出来的。后来做了各种强化学习,但也是基于这个基础之上。图像生成,包括视频生成,很大程度也是借重这个策略。

这个策略在文本中其实已经近乎完美,虽然还有幻觉,但已经是专家水平的。但到图像就不那么顺手,需要和其他策略配合,视频生成更难,要生成一个 10 分钟逻辑连贯的视频相当吃力。

再到具身智能,这个东西往下走,是一个大问号。

语言之所以能成功,因为它是线性序列,有「Discrete infinity(离散无限性)」的特点。

比如,apple 主要有两个意思,一个是吃的苹果,一个是特定公司。其语义指向简明,词边界是清晰的,句子序列又是线性的,Next Token Prediction 就非常有效。

但到了图像就不行了,图像的比较明确的 Token 在哪儿不知道,只能搞成一个「补丁」(Patch)。

如一个 3 × 3 的黑块,可能是衣服的一部分,也可能是桌面的一角,还可能是屏幕上的一个图标,语义指向高度不确定。而且没有整体性,这个黑块可能由一堆黑色蚂蚁组成,也可能是衣服中一个补丁中的一小部分。

到了视频,从二维变成三维,就更困难。具身是四维,三维空间再加上时间,大千世界、变化无穷,如此复杂的场景靠 Next Token Prediction 到底能不能做到,不好说。

未来五年之内,指望人形机器人可以到现实世界自主完成较为复杂的开放式任务,我觉得是不可能的。如,构建一个在家庭里能照顾老人的具身机器人?实在是太难了。

图灵奖得主 Hinton 最近在讨论 AI 与失业问题时说过一句话:

如果有人建议你去做水管工,不要轻易拒绝这个建议。

这个建议是合理的,AI 要具备水管工的能力,还差得很远。

可能的是什么?

一定是一个比较简化的任务空间。比如刚才讲灵巧手,处理相对单一、简单的任务。其实要做好也很不容易,但是完全可能的。

因此,具身智一定是在有限的领域,有限的应用,这个发展空间也足够大。我们要量力而行,知难而进,但进退有度。

我们现在经常说要构建世界模型,但这件事极其困难。目前还没有太清晰的可行技术路径。

短期内,依然只能期待 Next Token Prediction。但如果沿着这条路走,肯定对算力、数据的要求是数量级提升。

当然,如果再次出现能力涌现,说不定机器人在相对开放任务空间中也能具备更高程度的自由。

「致广大而尽精微」

目前看来,发展路径应该是相对明晰的。

美国这边不用多说。国内也出现了非常有代表性的模型,比如 DeepSeek、千问,都做得非常好。从对比图来看,差距已经不大了。

来源:https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf

中国一句古话,叫作「致广大而尽精微」

「致广大」,把这个事往大了想,往大了做,这是目前美国典型的做法。

10 万张卡、100 万张卡,未来甚至上亿张卡,大手笔,连华尔街都觉得吃力。

但这条路,如果走成了,在某个关键节点出现涌现,就有可能形成断层的领先优势。

我们如果要沿着这条路去「正面跟」,在工业界,只有极少数国内大厂可能具备条件,但也会比较艰辛。

所以,虽然今天从大模型性能上看中美差距不大,但在「致广大」这条路上,未来几年依然存在非常大的不确定性。

在这样的背景下,我认为国内当前重点抓 AI 的垂直领域应用,即「尽精微」,应该是一个正确的战略选择。

以 DeepSeek、千问为代表的开源基座模型已经具备了相当扎实的基础。在基座之上,深入到各行各业做垂直领域的深度融合,是完全有可能做到世界领先的。

但这同样很有挑战,指望直接把现成的大模型拿来用一用就真的管用,是不现实的。

某种情况下,垂直领域本身甚至可能会孕育出新的人工智能算法。从这个意义上讲,「尽精微」本身,也是一种「致广大」

因此,我们的路径应该是:

少数实力极其雄厚的团队,可以尝试在「致广大」方向上继续跟随国际前沿;

但绝大多数 AI 公司,都应该把主要精力放在「尽精微」上。

垂直领域应用具有高度挑战性,但风险较小,我们有条件做得比美国好。我们的应用场景比较丰富,工业基础也较好,加上中国人聪明勤劳,都使得我们能在「尽精微」方面取得优势。

至于「致广大」的话,其实涉及到整个教育体系能不能培养出 0 到 1 的人才,包括回答钱学森之问,那是更复杂的事。没关系,这几年不放先放一放,先把「尽精微」做好,然后调过头做「致广大」,但得有一只眼紧紧盯着它。

在座各位很多都是做「尽精微」的工作,我觉得非常好,是我们目前应该做的。

以上是我个人的一些观察和感受,不一定对,谢谢大家!

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 清华大学 量子位 院士
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论