文|周鑫雨
编辑|苏建勋
预训练还是不是王道?如今 AI 行业,这是最大的 " 罗生门 " 事件。
2023 年,模型预训练,还是第一性原理。然而,从 OpenAI 前首席科学家 Ilya 公开喊话 " 预训练已走到尽头 ",到聚焦强化学习的 DeepSeek R1 出圈,又昭示着预训练风光不再。
从人人追捧,到口碑滑坡,预训练境遇的变化,是 AI 行业 " 共识 " 与 " 非共识 " 不断流动的一个缩影。
针对 AI 技术的共识与非共识,2025 年 5 月 27 日的 " 技术开放日 " 上,蚂蚁集团攒了一个交流局。
圆桌对话的参与者,是当下最热的创业者、技术高管和学者:
曹越,视频模型公司 Sand.AI 创始人,前光年之外联创。2024 年 7 月完成两轮融资后,公司估值已经超过 1 亿美元;
林俊旸,阿里通义千问(Qwen)技术负责人。从 2021 年发布的 M6,到 2025 年的 Qwen3,他都是名副其实的模型一把手;
孔令鹏,香港大学助理教授、NLP LAB 联合主任。其牵头研发的扩散推理模型 Dream 7B,成为了开源扩散语言模型的新 SOTA。
△图源:作者拍摄
某种意义上,曹越和孔令鹏,都在探寻 AI" 非共识 " 的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到对方身上:
通过把多模态的主流架构 Diffusion Model,运用在语言模型中,孔令鹏参与研发的 Dream 7B,用仅 7B 的参数量,在多个任务上表现优于 671B 的 DeepSeek V3。
反过来,曹越则将语言模型主流的自回归(Auto Regressive)路线,运用到了视频模型的训练中,实现了生成视频长度的无限扩展。
他们的经历代表着如今 AI 行业最性感的一面:拥抱非共识,实现创新。
相对的,阿里给外界的印象,则是拥抱共识:长期以来,千问发布的都是 Dense(稠密)模型,曾经的主流。直到 2025 年 2 月,团队才推出了首个 MoE 模型。
作为负责人的林俊旸,也常常听到外界批评的声音:" 千问是不是太保守了?" 在圆桌上,他做出了澄清:" 我们并不保守,只是做了一大堆实验后失败了。真是一个难过的事情。"
这也是 AI 行业的另一面:共识,往往代表着占多数的成功经验。
2023 年,阿里训练千问大模型时,林俊旸形容,内部曾多次 " 魔改 "Transformer 架构。然而他们最终发现,Transformer 还是最优解。
当然,三人都感受到的一个变化是:去年还在信仰强共识,今年大家都开始寻找非共识。
如今的行业,林俊旸打了个比方,大家都在不同的方向做探索,看谁能摸中彩票。" 大家看似在相反的道路上,其实都不矛盾。" 孔令鹏也有类似的观点。
一个案例是,无论是像孔令鹏那样,在语言模型的基础上做 Diffusion,还是像曹越那样,在视频模型上做自回归,都是为了平衡 Model Bias(模型偏差)和 Data Bias(数据偏差),达到更好的效果。
以及,关于预训练,近期在美国又涌现了新的非共识:预训练还没结束。当下林俊旸也是站在新非共识的一方。他透露:" 我们还有好多数据没放进(千问),放一次提升一次。"
以下是《智能涌现》对圆桌内容的整理,内容经过编辑:
千问并不保守,只是一大堆实验都失败了
蚂蚁百灵大模型负责人周俊(花名:西亭):用扩散模型来做语言生成背后的思考是什么?
孔令鹏:在你不了解你的数据时,不要对数据做更多的假设,让模型去接管更多的东西,这是我们将扩散模型用于语言模型训练的原因。
有些数据是有从左往右的 Bias(偏差,指输出结果与真实结果的差别),比如 3+3=6,不可能先有 6,再去补前面的过程。另外一些数据,比如我开三个会,A 会在 B 会后面,B 会必须在中午,这就意味着数据不可能完全从左到右。
以 Gemini Diffusion 这样的文本扩散模型为例,它是一个比从左往右学习的自回归模型更少假设的模型,它可以双向学习,也可以处理并行的任务。
西亭:请结合实践,分享一下多模态领域主流架构面临的技术挑战。
曹越:语言和视频在某种意义上还是比较像的,它们在时间维度上都有比较强的因果先验,也就是时间上的因果关系。
去年年初发布的 Sora,其实没有这种先验,生成的 5 秒视频,是直接用一个模型来做建模。
我们自己的感受是,视频时序的因果先验还是很强的,人看视频的时候是有顺序的。为什么有顺序?因为视频信息的存储方式是有顺序的。
我们如果能够设计出一种训练方式,能够编码时间维度上的顺序关系,我可能可以更大程度压榨视频中的信息,从而使得模型最终的天花板更高。
西亭:分享一下对 Transformer 架构认知的变化,以及你怎么看待 Transformer 目前面临的挑战。
林俊旸:我对 Transformer 感触特别深,因为刚开始干这行没多久,Transformer 就来了。所以我个人还是比较感谢 Transformer。
一路过来,我们尝试去改很多东西,但是最终发现 Transformer 确实挺好用的。2022 年的时候,大家都会去改一些细节,比如说对 Transformer 的激活函数做一些相应的改动。感受是,谷歌还是太强了,PaLM(谷歌基于 Transformer 训练的模型)还是挺好使的。
尤其 2023 年,我们刚开始做千问,刚开始也挺挣扎。可能有一些同学用过我们早期的模型,花样特别多,搞了半天发现,基础模型结构还是不能乱动。所以我觉得这还是有一点玄学的。
大家对千问有一种批评,是说觉得我们相对比较保守。其实我们并不保守,做了一大堆的试验都失败了,这是一个难过的事情。
还有一件值得关注的事,MOE 模型。我们 2021 年就在做 MOE,当时是 M6 模型。当时发现 MOE 挺能 Scale 的,只是这个模型不强。
MOE 还是值得走的,因为今天说白了,效果和效率,现在商业公司全都要。今天我们探索的架构,现在还没有很好的结论,还在做试验,可以看到优点和缺点。
但我觉得是挺好的方向,因为 MOE 确实有可能实现无限的上下文。但一些常见的长序列任务,比如一些常见的程序类的任务,比如抽取类的任务,有时还不如其他的方案。
所以,我们现在可能在做 Transformer 的同时,还会关注 MOE。
当然,孔老师的方向,Diffusion LLM(扩散语言模型)我们也在关注,这是另外一条线。目前看起来,扩散语言模型在数学和代码,以及推理类的任务上,表现确实挺好的。
这挺出乎意料,因为当年我们做自回归的各种实验的时候,相关的任务还挺失败。但现在扩散模型的表现还挺好。但它的通用能力,现在还有比较大的提升空间。
我觉得大家都在不同的方向做探索,看谁能摸中彩票。
现在每一次下赌注,成本变得越来越高
西亭:当前业界聚焦什么样的一些模型优化方法?你认为效率优化空间最大的方向可能有哪些?
林俊旸:大家都非常关注现在 DeepSeek 的每一步的动向。当时看到 DeepSeek 能把 MOE 的稀疏比(激活的专家数量与总专家数量的比值)做到这么大,还是挺惊喜的。
但其实我们也已经做到差不多的稀疏比。当时我们试验模型的效率和效果,看看模型能不能在变大的同时保持效率。结果,1:20 的稀疏比一般实验效果比较好,但 1:10 是相对更加保守的选项。所以我们更多在这个区间里边。
但 DeepSeek 可能做得更好一些,稀疏比能达到 1:20+。
MOE 值得进一步去探索,专家数越多,越稀疏,训练的稳定性肯定变差。相应的,我们要针对训练稳定性,去做相应的一些优化。
但针对模型结构,今天要更安全地进行考虑。模型架构有可能对预训练非常友好,但对强化学习非常不友好,这会带来很多困难。所以现在每一次下赌注,成本变得越来越高。
同时本身模型的结构也要提前考虑到长序列的问题。
所以我觉得效果效率联合优化,一个是看模型是不是变得更大、更稀疏,另一个能不能支持更长的序列;同时在训练的时候,长序列的训练不要变得更慢。
西亭:多模态领域如何通过架构创新实现突破?
曹越:2021 年的时候我们也对 Transformer 进行了 " 魔改 ",做了一个叫做 Spring Transformer 的工作,那个时间点在计算机视觉领域还算不错。
但往后想,大家 " 魔改 "Transformer,很多时候是在改先验。改先验的过程有个非常关键的问题,就是:你的先验会不会影响模型效果的天花板。
一个探索维度是,在 attention(注意力)中,怎么加入加合适的先验 sparse(稀疏化,从而减少计算复杂度),我觉得这是 ROI(投入产出比)很高的事情。
另一个维度,整个多模态领域很多时候涉及多种不同 Token 类型的融合。这个过程如果在 attention 做合适的 sparse,就能够显著提升跨模态融合的效率。
还有一个维度是,怎么做到从 Tokenize(编码)到联合建模的端到端优化。
西亭:怎么提升 Transformer 的可解释性,以及降低幻觉?
孔令鹏:我想先回复一下曹越。我觉得在大家看似相反的道路上面,其实并不是一个矛盾的状况。
我们做的其实就是找到一个最好能够适应数据的 Bias,或者我相信我的模型能去除所有的 Bias,但这也对我的模型提出了更高的要求。
说回模型的可解释性和幻觉,Transformer 要不要背这个锅是值得商榷的。
我也想问俊旸一件事。因为有一种说法是,强化学习这套范式,对模型后期的 " 幻觉 " 可能不是好消息,因为它可能学到了一些错误的推理模式。
在 Qwen 3 和 Qwen 2.5 中,有没有看到这样的现象?
林俊旸:我只能自揭其短。" 幻觉 " 我们确实没有办法控制。
所以现在要解决几个问题。一个是怎么把 " 幻觉 " 降下来,反过来通过强化学习的办法去解决。
另一个是和 " 幻觉 " 相关,或者是跟可解释性相关的事。我们现在在做一些 SAE(稀疏自编码器)相关的研究,发现有些问题的出现,可能和一些特征有非常紧密的关联。所以我们通过 SAE,找到一些特征,然后压抑它们。
就算做强化学习,发现有 " 幻觉 " 的问题,这也不可怕,就看接下来怎么解决。
孔令鹏:一个架构,首先是和硬件联合考虑的。架构之后又会到来新的问题、新的架构,比如有一些架构不适合做强化学习。
我的感觉是,不要用 "GPU+ 自回归 /Transformer+ 预训练 /SFT(监督微调)+ 强化学习 " 这样一个固定不变的模式,去考虑所有的事情。
林俊旸:未来可能是会发生变化的。主要我们也没得选,只能用 GPU 训练。
我问过懂硬件的朋友,他说 GPU 不太适合训 Transformer,我也不可能自己造一款。
但是我们公司可以去做,或者中国反而有一定的机会做软硬一体。所以将来我们能把问题想得更深一些。
创造其实是一个搜索层面的问题
西亭:目前预训练的边际效应好像已经开始递减。怎么通过架构的革新,突破目前的瓶颈?
林俊旸:先说达到瓶颈这个问题,我是保留疑问的。
因为去年说预训练要结束了,这成为了共识。但今年大家疯狂追求非共识。现在美国涌现了新的非共识,叫做预训练还没结束。
我不知道该高兴,还是不高兴。干这一行,我也知道自己差在哪,反正有挺多要补。
如果你觉得千问做得还可以,那我觉得预训练大有可为。因为我能说的是,我们还有好多数据没放进去,放一次提升一次。把模型稍微改改,放大一点,性能又提升一次。
西亭:多模态领域,下一代的架构可能有哪些值得关注的点?
曹越:我非常同意俊旸的说法。去年说预训练要结束了,语言数据快用完了,图像视频数据还大有可为,这是我自己一个初步的感觉。
另外一个维度,我觉得下一代的架构还是有挺多大家比较常用的东西。过一段时间大家可以把它拎出来,再看看它是不是常用,或者说它实际上是不是运用了某种先验,但是大家平时没有注意到。
如果我们去看过去十几年的发展史,这其实是一个算力越来越多,整个训练过程中 Bias 越来越少的过程。
现在我们有新的算力,在算力比以往充足的情况下,之前一些不太能用的技术,可以拎出来再试一试。
还有一个很容易被大家忽略的部分是优化算力。
西亭:未来模型如何突破理解和生成,走向所谓的智能性创造,甚至创造出一些新的智能?
孔令鹏:这其实是一个现在的模型如何能够在智能上更进一步的问题。
比如说创作。创作其实仍然是一个搜索层面的问题。一句话 20 个词,给你两千个单词,它就是有那么多可能性。最终就是在所有的可能性中找到一种。
所以我有时候觉得,如果你把创造理解为一个搜索问题,那它在将来很可能是可以被解决的。
最后我想说的是,不要太焦虑于预测未来,很多时候我们没有办法,或者说从来也没有办法真正预测未来。
我们只能到某一步的时候,回过头来看一个东西是不是有进步,回过头来发现 GPT-4o 相对 GPT-4 是进步,4 相对 3 又是进步。
我看过一个心灵鸡汤,分享给大家:
有一个问题:飞机在飞行的时候,有多少的时间在它规定的航迹上?答案是 0%,因为它不停地在调整,把它调整到既定的航道上。但是它从来没有在既定的航道上过。
所以预测也许没有那么大的指导意义。不要害怕犯错,犯错之后去修正你的错误,回过头看一下什么东西在进步。这可能是一个不那么焦虑的态度。
欢迎交流!
登录后才可以发布评论哦
打开小程序可以发布评论哦