小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

小模型身上的 " 秘密 " 这下算是被扒光了！

知名开源项目 OpenEvolve 作者，刚刚用一篇长文揭示了70M 小模型的几个重要发现：

其一，架构的重要性远低于大家的想象。相比之下，模型 " 形状 "（深度 - 宽度比）更重要。

其二，小模型层数也存在 " 玄学 "，12/32/64 层效果好，16/24/48/ 层效果糟，而且最佳层数为 32。

当然了，作者还解密了这一 " 层数玄学 " 的背后原因——" 隐藏维度 " 是否大于等于 512。

上述结论一出，社区里迅速刮起了一股讨论之风，大家还与作者进行了各种互动：

别急，咱这就详细看看——

发现小模型层数存在 " 玄学 "

开始之前，简单介绍下作者Asankhaya Sharma。

他最为人熟知的成就主要包括：1）在很多人还主要围绕模型规模、参数量和训练方法打转时，他率先关注到了大语言模型的 " 推理时计算 "，并以唯一作者的身份发表了一篇论文进行详细叙述；2）开源了 OptiLLM、OpenEvolve、Adaptive Classifier 等一众知名项目。

在本次研究之前，他和团队已经发现——

「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是训练小模型 GPT-2 的最佳数据集组合，使用标准的 12 层架构，其平均准确率可以达到 38.50%。

于是他们想接着探讨：模型架构是否和数据组成一样重要？

标准的 GPT-2 使用 12 层和 768 隐藏维度。但这设计于 2019 年，适用于约 1.24 亿参数。对于一个用 10 亿 tokens 训练的 70M 参数模型，这仍然是最优的吗？

为了弄清这个问题，他们着手开始了一系列实验。

实验第一步——确保除了模型架构，其他因素保持一致，包括模型参数、训练数据、训练时间和硬件配置等。

然后通过改变 7 种 GPT-2 变体的 " 形状 "（即深度和宽度的变化），来对比同一架构内不同 " 深度 - 宽度配比 " 对性能的影响。

结果发现，从 4 层→ 64 层，模型性能并未如预想那般，随着层数增加或减少而平滑变化，而是清晰分裂成了两个阵营：

" 好 " 的层级：包括 12L、32L、64L，平均得分在约 38% 左右；

" 糟 " 的层级：包括 16L、24L、48L，平均得分在约 32% 左右。

作者表示，两个层级之间平均相差超过 6 个百分点，且每个层级内部的差异极小（约 0.5%），出现了明显的两极分化。

原因出在 " 隐藏维度 " 上

进一步分析表明，这一现象背后的关键因素是隐藏维度（hidden dimension）。

隐藏维度可理解为神经网络的宽度，每个词经由模型转换后都会变成一个数字列表。假设 " 人工智能 " 这个词的隐藏维度是 768，它就代表这个词在模型内部会被表示成一个由 768 个数字构成的向量。

作者发现，模型的 " 隐藏维度 " 必须大于等于 512，这是一个基础门槛。

当模型处于 12 层时，其隐藏维度恰好为 512，所以表现出色。

至于宽度更窄的 32 层和 64 层模型也能成为 " 优等生 " 的原因，主要是它们通过特殊的深度配置进行了 " 补偿 " ——

前者属于 " 黄金补偿点 "，在宽度为 384 的情况下，32 层这个特定的深度能最高效地弥补宽度的不足，取得了所有配置中的最高分；而后者属于 " 暴力补偿 "，虽然宽度只有 256，但凭借极深的层数强行拉高了性能。

16L、24L 和 48L 处于 " 死角 "，它们的隐藏维度太窄，深度又不在可以弥补的最佳位置。

由此，作者也总结出了一套规则——

模型要想性能好，必须满足三种条件之一。1）隐藏维度大于等于 512；2）正好处于 32 层；3）位于 64 层以上的极深层，以进行补偿。

而且必须再次提醒，32 层属于全场最佳。当隐藏维度 =384 时，32 层配置获得了 38.50% 的最佳总体得分，甚至略胜于标准的 12 层设计。

进一步发现：" 形状 " 比架构选择更重要

在确定了 "32 层 " 这个最佳深度后，作者又比较了 12 种不同架构的表现，包括 LLaMA3、Qwen3、Gemma3 等模型。

结果发现，在 70M 模型范围内，所有现代架构的表现都惊人地相似，平均差异不到 2%。

自回归模型：包括 GPT-2、LLaMA3、Qwen3、Gemma3、MoE 等，平均性能集中在 32% 到 33% 之间；

扩散模型：包括 dLLM、Dhara 等，平均性能集中在 31% 到 32% 之间。

作者表示，现代架构改进（RMSNorm、RoPE、GQA）是为 70 亿以上参数的模型设计的，在 70M 参数的情况下无法带来可衡量的优势。

完整测试结果 be like：

这也意味着，对小模型来说，精心调整的 " 形状 " 可能比选择哪个具体的 " 架构变体 " 更重要。

意外之喜：扩散模型有自己的独特优势

此外，虽然扩散模型的平均准确率略低于自回归模型，但研究认为这点 " 缺陷 " 完全可以通过其他方面弥补。

这主要体现在两大方面：推理速度和幻觉率。

和传统自回归模型相比，扩散模型的推理速度要快上 3.8 倍，非常适合处理批量任务。

且在所有测试架构中，扩散模型在衡量真实性的 TruthfulQA 基准上得分最高（达 49.27%），表明其 " 幻觉 " 更少。

作者还顺带解释了这背后的原因，核心有三个：

双向注意力机制允许模型在做预测时考虑完整上下文。

迭代改进使模型能够在多个去噪步骤中 " 重新评估 " 其原始预测结果。

非自回归生成模型或许能够减少 " 滚雪球效应 "，即早期幻觉累积成更大的误差。

不过，无论是自回归还是扩散模型，都可以用一个小技巧来增加事实准确性——

作者表示，通过在模型里加入一种叫 "Canon 层 " 的特殊结构（本质是一种精心设计的卷积层），普通模型能让事实性得分提升 1%，扩散模型效果更明显，能提升超过 2%。

而且增加的 "Canon 层 " 仅增加了 0.13% 的参数开销，性价比极高。

而更更重要的是，通过使用 LLaDA 2.0 论文中的Warmup-Stable-Decay 方法，可以将现有的自回归模型高效转换为扩散模型。

划重点，需要的数据量、成本、训练时间通通仅为原来的 1/10。而且作者发现：

WSD 转换不仅与从头训练的结果相当，而且在几项基准测试上超越了后者。

推出集大成者： Dhara-70M 模型

基于所有发现，作者和团队最后推出了Dhara-70M这个模型。

其构建方法为：首先采用最佳的自回归架构（LLaMA3-Canon），然后使用 WSD 方法将其转换为扩散模型。

如此一来，Dhara-70M 也就具备了两者的优势——

既有自回归模型的知识储备，又有扩散模型带来的吞吐量和事实性优势。

作者表示，这项工作最大的意义或许在于提醒大家——

对于资源有限的小语言模型构建者，不应盲目追求最新的架构魔法。首先应关注基础的 " 深度 - 宽度配比 "，确保模型不落入 " 死亡区域 "；其次，如果应用场景需要高速处理且对事实准确性要求高，那么扩散模型是一个极具竞争力的选择。

Dhara-70M 开源地址：

https://huggingface.co/codelion/dhara-70m

参考链接：

https://huggingface.co/blog/codelion/optimal-model-architecture

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签