量子位 昨天
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

小模型身上的 " 秘密 " 这下算是被扒光了!

知名开源项目 OpenEvolve 作者,刚刚用一篇长文揭示了70M 小模型的几个重要发现:

其一,架构的重要性远低于大家的想象。相比之下,模型 " 形状 "(深度 - 宽度比)更重要。

其二,小模型层数也存在 " 玄学 ",12/32/64 层效果好,16/24/48/ 层效果糟,而且最佳层数为 32。

当然了,作者还解密了这一 " 层数玄学 " 的背后原因——" 隐藏维度 " 是否大于等于 512

上述结论一出,社区里迅速刮起了一股讨论之风,大家还与作者进行了各种互动:

别急,咱这就详细看看——

发现小模型层数存在 " 玄学 "

开始之前,简单介绍下作者Asankhaya Sharma

他最为人熟知的成就主要包括:1)在很多人还主要围绕模型规模、参数量和训练方法打转时,他率先关注到了大语言模型的 " 推理时计算 ",并以唯一作者的身份发表了一篇论文进行详细叙述;2)开源了 OptiLLM、OpenEvolve、Adaptive Classifier 等一众知名项目。

在本次研究之前,他和团队已经发现——

「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是训练小模型 GPT-2 的最佳数据集组合,使用标准的 12 层架构,其平均准确率可以达到 38.50%。

于是他们想接着探讨:模型架构是否和数据组成一样重要?

标准的 GPT-2 使用 12 层和 768 隐藏维度。但这设计于 2019 年,适用于约 1.24 亿参数。对于一个用 10 亿 tokens 训练的 70M 参数模型,这仍然是最优的吗?

为了弄清这个问题,他们着手开始了一系列实验。

实验第一步——确保除了模型架构,其他因素保持一致,包括模型参数、训练数据、训练时间和硬件配置等。

然后通过改变 7 种 GPT-2 变体的 " 形状 "(即深度和宽度的变化),来对比同一架构内不同 " 深度 - 宽度配比 " 对性能的影响。

结果发现,从 4 层→ 64 层,模型性能并未如预想那般,随着层数增加或减少而平滑变化,而是清晰分裂成了两个阵营:

" 好 " 的层级:包括 12L、32L、64L,平均得分在约 38% 左右;

" 糟 " 的层级:包括 16L、24L、48L,平均得分在约 32% 左右。

作者表示,两个层级之间平均相差超过 6 个百分点,且每个层级内部的差异极小(约 0.5%),出现了明显的两极分化。

原因出在 " 隐藏维度 " 上

进一步分析表明,这一现象背后的关键因素是隐藏维度(hidden dimension)

隐藏维度可理解为神经网络的宽度,每个词经由模型转换后都会变成一个数字列表。假设 " 人工智能 " 这个词的隐藏维度是 768,它就代表这个词在模型内部会被表示成一个由 768 个数字构成的向量。

作者发现,模型的 " 隐藏维度 " 必须大于等于 512,这是一个基础门槛

当模型处于 12 层时,其隐藏维度恰好为 512,所以表现出色。

至于宽度更窄的 32 层和 64 层模型也能成为 " 优等生 " 的原因,主要是它们通过特殊的深度配置进行了 " 补偿 " ——

前者属于 " 黄金补偿点 ",在宽度为 384 的情况下,32 层这个特定的深度能最高效地弥补宽度的不足,取得了所有配置中的最高分;而后者属于 " 暴力补偿 ",虽然宽度只有 256,但凭借极深的层数强行拉高了性能。

16L、24L 和 48L 处于 " 死角 ",它们的隐藏维度太窄,深度又不在可以弥补的最佳位置。

由此,作者也总结出了一套规则——

模型要想性能好,必须满足三种条件之一。1)隐藏维度大于等于 512;2)正好处于 32 层;3)位于 64 层以上的极深层,以进行补偿。

而且必须再次提醒,32 层属于全场最佳。当隐藏维度 =384 时,32 层配置获得了 38.50% 的最佳总体得分,甚至略胜于标准的 12 层设计。

进一步发现:" 形状 " 比架构选择更重要

在确定了 "32 层 " 这个最佳深度后,作者又比较了 12 种不同架构的表现,包括 LLaMA3、Qwen3、Gemma3 等模型。

结果发现,在 70M 模型范围内,所有现代架构的表现都惊人地相似,平均差异不到 2%

自回归模型:包括 GPT-2、LLaMA3、Qwen3、Gemma3、MoE 等,平均性能集中在 32% 到 33% 之间;

扩散模型:包括 dLLM、Dhara 等,平均性能集中在 31% 到 32% 之间。

作者表示,现代架构改进(RMSNorm、RoPE、GQA)是为 70 亿以上参数的模型设计的,在 70M 参数的情况下无法带来可衡量的优势。

完整测试结果 be like:

这也意味着,对小模型来说,精心调整的 " 形状 " 可能比选择哪个具体的 " 架构变体 " 更重要。

意外之喜:扩散模型有自己的独特优势

此外,虽然扩散模型的平均准确率略低于自回归模型,但研究认为这点 " 缺陷 " 完全可以通过其他方面弥补。

这主要体现在两大方面:推理速度和幻觉率

和传统自回归模型相比,扩散模型的推理速度要快上 3.8 倍,非常适合处理批量任务。

且在所有测试架构中,扩散模型在衡量真实性的 TruthfulQA 基准上得分最高(达 49.27%),表明其 " 幻觉 " 更少。

作者还顺带解释了这背后的原因,核心有三个:

双向注意力机制允许模型在做预测时考虑完整上下文。

迭代改进使模型能够在多个去噪步骤中 " 重新评估 " 其原始预测结果。

非自回归生成模型或许能够减少 " 滚雪球效应 ",即早期幻觉累积成更大的误差。

不过,无论是自回归还是扩散模型,都可以用一个小技巧来增加事实准确性——

作者表示,通过在模型里加入一种叫 "Canon 层 " 的特殊结构(本质是一种精心设计的卷积层),普通模型能让事实性得分提升 1%,扩散模型效果更明显,能提升超过 2%。

而且增加的 "Canon 层 " 仅增加了 0.13% 的参数开销,性价比极高。

而更更重要的是,通过使用 LLaDA 2.0 论文中的Warmup-Stable-Decay 方法,可以将现有的自回归模型高效转换为扩散模型。

划重点,需要的数据量、成本、训练时间通通仅为原来的 1/10。而且作者发现:

WSD 转换不仅与从头训练的结果相当,而且在几项基准测试上超越了后者。

推出集大成者: Dhara-70M 模型

基于所有发现,作者和团队最后推出了Dhara-70M这个模型。

其构建方法为:首先采用最佳的自回归架构(LLaMA3-Canon),然后使用 WSD 方法将其转换为扩散模型。

如此一来,Dhara-70M 也就具备了两者的优势——

既有自回归模型的知识储备,又有扩散模型带来的吞吐量和事实性优势。

作者表示,这项工作最大的意义或许在于提醒大家——

对于资源有限的小语言模型构建者,不应盲目追求最新的架构魔法。首先应关注基础的 " 深度 - 宽度配比 ",确保模型不落入 " 死亡区域 ";其次,如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择。

Dhara-70M 开源地址:

https://huggingface.co/codelion/dhara-70m

参考链接:

https://huggingface.co/blog/codelion/optimal-model-architecture

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论