三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

文｜周鑫雨

编辑｜苏建勋

预训练还是不是王道？如今 AI 行业，这是最大的 " 罗生门 " 事件。

2023 年，模型预训练，还是第一性原理。然而，从 OpenAI 前首席科学家 Ilya 公开喊话 " 预训练已走到尽头 "，到聚焦强化学习的 DeepSeek R1 出圈，又昭示着预训练风光不再。

从人人追捧，到口碑滑坡，预训练境遇的变化，是 AI 行业 " 共识 " 与 " 非共识 " 不断流动的一个缩影。

针对 AI 技术的共识与非共识，2025 年 5 月 27 日的 " 技术开放日 " 上，蚂蚁集团攒了一个交流局。

圆桌对话的参与者，是当下最热的创业者、技术高管和学者：

曹越，视频模型公司 Sand.AI 创始人，前光年之外联创。2024 年 7 月完成两轮融资后，公司估值已经超过 1 亿美元；

林俊旸，阿里通义千问（Qwen）技术负责人。从 2021 年发布的 M6，到 2025 年的 Qwen3，他都是名副其实的模型一把手；

孔令鹏，香港大学助理教授、NLP LAB 联合主任。其牵头研发的扩散推理模型 Dream 7B，成为了开源扩散语言模型的新 SOTA。

△图源：作者拍摄

某种意义上，曹越和孔令鹏，都在探寻 AI" 非共识 " 的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构，分别应用到对方身上：

通过把多模态的主流架构 Diffusion Model，运用在语言模型中，孔令鹏参与研发的 Dream 7B，用仅 7B 的参数量，在多个任务上表现优于 671B 的 DeepSeek V3。

反过来，曹越则将语言模型主流的自回归（Auto Regressive）路线，运用到了视频模型的训练中，实现了生成视频长度的无限扩展。

他们的经历代表着如今 AI 行业最性感的一面：拥抱非共识，实现创新。

相对的，阿里给外界的印象，则是拥抱共识：长期以来，千问发布的都是 Dense（稠密）模型，曾经的主流。直到 2025 年 2 月，团队才推出了首个 MoE 模型。

作为负责人的林俊旸，也常常听到外界批评的声音：" 千问是不是太保守了？" 在圆桌上，他做出了澄清：" 我们并不保守，只是做了一大堆实验后失败了。真是一个难过的事情。"

这也是 AI 行业的另一面：共识，往往代表着占多数的成功经验。

2023 年，阿里训练千问大模型时，林俊旸形容，内部曾多次 " 魔改 "Transformer 架构。然而他们最终发现，Transformer 还是最优解。

当然，三人都感受到的一个变化是：去年还在信仰强共识，今年大家都开始寻找非共识。

如今的行业，林俊旸打了个比方，大家都在不同的方向做探索，看谁能摸中彩票。" 大家看似在相反的道路上，其实都不矛盾。" 孔令鹏也有类似的观点。

一个案例是，无论是像孔令鹏那样，在语言模型的基础上做 Diffusion，还是像曹越那样，在视频模型上做自回归，都是为了平衡 Model Bias（模型偏差）和 Data Bias（数据偏差），达到更好的效果。

以及，关于预训练，近期在美国又涌现了新的非共识：预训练还没结束。当下林俊旸也是站在新非共识的一方。他透露：" 我们还有好多数据没放进（千问），放一次提升一次。"

以下是《智能涌现》对圆桌内容的整理，内容经过编辑：

千问并不保守，只是一大堆实验都失败了

蚂蚁百灵大模型负责人周俊（花名：西亭）：用扩散模型来做语言生成背后的思考是什么？

孔令鹏：在你不了解你的数据时，不要对数据做更多的假设，让模型去接管更多的东西，这是我们将扩散模型用于语言模型训练的原因。

有些数据是有从左往右的 Bias（偏差，指输出结果与真实结果的差别），比如 3+3=6，不可能先有 6，再去补前面的过程。另外一些数据，比如我开三个会，A 会在 B 会后面，B 会必须在中午，这就意味着数据不可能完全从左到右。

以 Gemini Diffusion 这样的文本扩散模型为例，它是一个比从左往右学习的自回归模型更少假设的模型，它可以双向学习，也可以处理并行的任务。

西亭：请结合实践，分享一下多模态领域主流架构面临的技术挑战。

曹越：语言和视频在某种意义上还是比较像的，它们在时间维度上都有比较强的因果先验，也就是时间上的因果关系。

去年年初发布的 Sora，其实没有这种先验，生成的 5 秒视频，是直接用一个模型来做建模。

我们自己的感受是，视频时序的因果先验还是很强的，人看视频的时候是有顺序的。为什么有顺序？因为视频信息的存储方式是有顺序的。

我们如果能够设计出一种训练方式，能够编码时间维度上的顺序关系，我可能可以更大程度压榨视频中的信息，从而使得模型最终的天花板更高。

西亭：分享一下对 Transformer 架构认知的变化，以及你怎么看待 Transformer 目前面临的挑战。

林俊旸：我对 Transformer 感触特别深，因为刚开始干这行没多久，Transformer 就来了。所以我个人还是比较感谢 Transformer。

一路过来，我们尝试去改很多东西，但是最终发现 Transformer 确实挺好用的。2022 年的时候，大家都会去改一些细节，比如说对 Transformer 的激活函数做一些相应的改动。感受是，谷歌还是太强了，PaLM（谷歌基于 Transformer 训练的模型）还是挺好使的。

尤其 2023 年，我们刚开始做千问，刚开始也挺挣扎。可能有一些同学用过我们早期的模型，花样特别多，搞了半天发现，基础模型结构还是不能乱动。所以我觉得这还是有一点玄学的。

大家对千问有一种批评，是说觉得我们相对比较保守。其实我们并不保守，做了一大堆的试验都失败了，这是一个难过的事情。

还有一件值得关注的事，MOE 模型。我们 2021 年就在做 MOE，当时是 M6 模型。当时发现 MOE 挺能 Scale 的，只是这个模型不强。

MOE 还是值得走的，因为今天说白了，效果和效率，现在商业公司全都要。今天我们探索的架构，现在还没有很好的结论，还在做试验，可以看到优点和缺点。

但我觉得是挺好的方向，因为 MOE 确实有可能实现无限的上下文。但一些常见的长序列任务，比如一些常见的程序类的任务，比如抽取类的任务，有时还不如其他的方案。

所以，我们现在可能在做 Transformer 的同时，还会关注 MOE。

当然，孔老师的方向，Diffusion LLM（扩散语言模型）我们也在关注，这是另外一条线。目前看起来，扩散语言模型在数学和代码，以及推理类的任务上，表现确实挺好的。

这挺出乎意料，因为当年我们做自回归的各种实验的时候，相关的任务还挺失败。但现在扩散模型的表现还挺好。但它的通用能力，现在还有比较大的提升空间。

我觉得大家都在不同的方向做探索，看谁能摸中彩票。

现在每一次下赌注，成本变得越来越高

西亭：当前业界聚焦什么样的一些模型优化方法？你认为效率优化空间最大的方向可能有哪些？

林俊旸：大家都非常关注现在 DeepSeek 的每一步的动向。当时看到 DeepSeek 能把 MOE 的稀疏比（激活的专家数量与总专家数量的比值）做到这么大，还是挺惊喜的。

但其实我们也已经做到差不多的稀疏比。当时我们试验模型的效率和效果，看看模型能不能在变大的同时保持效率。结果，1:20 的稀疏比一般实验效果比较好，但 1:10 是相对更加保守的选项。所以我们更多在这个区间里边。

但 DeepSeek 可能做得更好一些，稀疏比能达到 1:20+。

MOE 值得进一步去探索，专家数越多，越稀疏，训练的稳定性肯定变差。相应的，我们要针对训练稳定性，去做相应的一些优化。

但针对模型结构，今天要更安全地进行考虑。模型架构有可能对预训练非常友好，但对强化学习非常不友好，这会带来很多困难。所以现在每一次下赌注，成本变得越来越高。

同时本身模型的结构也要提前考虑到长序列的问题。

所以我觉得效果效率联合优化，一个是看模型是不是变得更大、更稀疏，另一个能不能支持更长的序列；同时在训练的时候，长序列的训练不要变得更慢。

西亭：多模态领域如何通过架构创新实现突破？

曹越：2021 年的时候我们也对 Transformer 进行了 " 魔改 "，做了一个叫做 Spring Transformer 的工作，那个时间点在计算机视觉领域还算不错。

但往后想，大家 " 魔改 "Transformer，很多时候是在改先验。改先验的过程有个非常关键的问题，就是：你的先验会不会影响模型效果的天花板。

一个探索维度是，在 attention（注意力）中，怎么加入加合适的先验 sparse（稀疏化，从而减少计算复杂度），我觉得这是 ROI（投入产出比）很高的事情。

另一个维度，整个多模态领域很多时候涉及多种不同 Token 类型的融合。这个过程如果在 attention 做合适的 sparse，就能够显著提升跨模态融合的效率。

还有一个维度是，怎么做到从 Tokenize（编码）到联合建模的端到端优化。

西亭：怎么提升 Transformer 的可解释性，以及降低幻觉？

孔令鹏：我想先回复一下曹越。我觉得在大家看似相反的道路上面，其实并不是一个矛盾的状况。

我们做的其实就是找到一个最好能够适应数据的 Bias，或者我相信我的模型能去除所有的 Bias，但这也对我的模型提出了更高的要求。

说回模型的可解释性和幻觉，Transformer 要不要背这个锅是值得商榷的。

我也想问俊旸一件事。因为有一种说法是，强化学习这套范式，对模型后期的 " 幻觉 " 可能不是好消息，因为它可能学到了一些错误的推理模式。

在 Qwen 3 和 Qwen 2.5 中，有没有看到这样的现象？

林俊旸：我只能自揭其短。" 幻觉 " 我们确实没有办法控制。

所以现在要解决几个问题。一个是怎么把 " 幻觉 " 降下来，反过来通过强化学习的办法去解决。

另一个是和 " 幻觉 " 相关，或者是跟可解释性相关的事。我们现在在做一些 SAE（稀疏自编码器）相关的研究，发现有些问题的出现，可能和一些特征有非常紧密的关联。所以我们通过 SAE，找到一些特征，然后压抑它们。

就算做强化学习，发现有 " 幻觉 " 的问题，这也不可怕，就看接下来怎么解决。

孔令鹏：一个架构，首先是和硬件联合考虑的。架构之后又会到来新的问题、新的架构，比如有一些架构不适合做强化学习。

我的感觉是，不要用 "GPU+ 自回归 /Transformer+ 预训练 /SFT（监督微调）+ 强化学习 " 这样一个固定不变的模式，去考虑所有的事情。

林俊旸：未来可能是会发生变化的。主要我们也没得选，只能用 GPU 训练。

我问过懂硬件的朋友，他说 GPU 不太适合训 Transformer，我也不可能自己造一款。

但是我们公司可以去做，或者中国反而有一定的机会做软硬一体。所以将来我们能把问题想得更深一些。

创造其实是一个搜索层面的问题

西亭：目前预训练的边际效应好像已经开始递减。怎么通过架构的革新，突破目前的瓶颈？

林俊旸：先说达到瓶颈这个问题，我是保留疑问的。

因为去年说预训练要结束了，这成为了共识。但今年大家疯狂追求非共识。现在美国涌现了新的非共识，叫做预训练还没结束。

我不知道该高兴，还是不高兴。干这一行，我也知道自己差在哪，反正有挺多要补。

如果你觉得千问做得还可以，那我觉得预训练大有可为。因为我能说的是，我们还有好多数据没放进去，放一次提升一次。把模型稍微改改，放大一点，性能又提升一次。

西亭：多模态领域，下一代的架构可能有哪些值得关注的点？

曹越：我非常同意俊旸的说法。去年说预训练要结束了，语言数据快用完了，图像视频数据还大有可为，这是我自己一个初步的感觉。

另外一个维度，我觉得下一代的架构还是有挺多大家比较常用的东西。过一段时间大家可以把它拎出来，再看看它是不是常用，或者说它实际上是不是运用了某种先验，但是大家平时没有注意到。

如果我们去看过去十几年的发展史，这其实是一个算力越来越多，整个训练过程中 Bias 越来越少的过程。

现在我们有新的算力，在算力比以往充足的情况下，之前一些不太能用的技术，可以拎出来再试一试。

还有一个很容易被大家忽略的部分是优化算力。

西亭：未来模型如何突破理解和生成，走向所谓的智能性创造，甚至创造出一些新的智能？

孔令鹏：这其实是一个现在的模型如何能够在智能上更进一步的问题。

比如说创作。创作其实仍然是一个搜索层面的问题。一句话 20 个词，给你两千个单词，它就是有那么多可能性。最终就是在所有的可能性中找到一种。

所以我有时候觉得，如果你把创造理解为一个搜索问题，那它在将来很可能是可以被解决的。

最后我想说的是，不要太焦虑于预测未来，很多时候我们没有办法，或者说从来也没有办法真正预测未来。

我们只能到某一步的时候，回过头来看一个东西是不是有进步，回过头来发现 GPT-4o 相对 GPT-4 是进步，4 相对 3 又是进步。

我看过一个心灵鸡汤，分享给大家：

有一个问题：飞机在飞行的时候，有多少的时间在它规定的航迹上？答案是 0%，因为它不停地在调整，把它调整到既定的航道上。但是它从来没有在既定的航道上过。

所以预测也许没有那么大的指导意义。不要害怕犯错，犯错之后去修正你的错误，回过头看一下什么东西在进步。这可能是一个不那么焦虑的态度。

欢迎交流！

宙世代

一起剪

相关标签