量子位 03-04
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek MoE" 变体 " 来了,200 美元以内,内存需求减少 17.6-42%!

名叫CoE(Chain-of-Experts),被认为是一种 " 免费午餐 " 优化方法,突破了 MoE 并行独立处理 token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同,CoE 使专家能在单层内串行通信,形成一种迭代机制,即专家能 " 沟通 ",在其它专家输出之上处理 token。

研究团队在实验中发现,经过 2 次迭代的 CoE,在相同的计算预算下将数学任务的验证损失从 1.20 降低至 1.12,仅仅通过重构信息流就获得了性能提升。

通过扩展 CoE 的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了 17.6-42%。

另外,在专家组合自由度、专家使用效率等其它方面,CoE 也都具有显著优势,专家组合增加 823 倍。

目前,研究团队晒出了 CoE 技术 Blog(完整论文即将发布),引起不少网友围观。

翻看作者主页,还发现作者 Zihan Wang 真曾在 DeepSeek 实习过

有网友看过这项研究表示:

MoEs 中的 IsoFLOP 层迭代设计,非常奈斯。

还有网友已经开始预测下一代架构了。

CoE 究竟长啥样?以下是团队发布的 Notion Blog 介绍。

CoE 专门针对稀疏 MoE 打造

CoE 关键创新在于建立沟通性处理机制,改变了稀疏神经网络的信息处理方式。

具体来说,是通过在单个层的迭代中将 MoE 输出反馈为多次迭代的输入来实现的。

CoE 迭代处理机制可以形式化表示为下面这个样婶儿:

参考 DeepSeek-V2 的实现,研究团队定义门控机制为如下:

团队介绍,这种设计的好处在于每次迭代的专家选择由前一次迭代的输出决定,形成专家间的依赖关系和更动态的路由机制

而且串行信息可以在迭代过程中累积,实现专家间的直接通信。

实验采取 DeepSeek V2 架构,在参数规模为 500M 的 MoE 模型上使用 32K Tok 的 batch size 训练 1000 步,以此来验证 CoE 的有效性。

结果 CoE 在性能、扩展策略、资源效率优化、专家组合自由度、专家使用效率方面具有显著优势。

除了开头所展示的在相似的算力和内存要求下,CoE 将 loss 从 1.20 下降至 1.12,且有更陡峭的下降趋势。

团队进一步在 "dense"(专家 8 选 8)模型上也进行了测试,结果证明了串行处理在 Sparse MoE 上相比 Dense 模型更有效,CoE 是一种专为(细粒度)稀疏混合专家模型(Sparse MoE)设计的方法

采取 2 次序列化处理并不能显著提升 Dense 模型性能。

另外,在计算量和效果相似的情况下,CoE 可以减小对内存的要求。如下,CoE-2(4/48)的效果与 MoE(8/64)相近,但使用更少的总专家数量。loss match 的情况下减小了 17.6% 的内存需求。

团队还对比了在预算相似的情况下,扩展 CoE 迭代次数和扩展模型层数、扩展专家选择个数的效果,结果扩展 CoE 迭代次数更优。

CoE-2(8/64),4 层 vs MoE(8/64),8 层 /12 层,8 层 MoE 和 CoE 效果几乎相同,但是对内存要求高 72%,即 CoE 相对节省了 42% 内存。

团队强调,独立门控机制内残差连接是 CoE 的关键架构创新,消融研究表明,移除任何组件都会显著降低性能。

更多细节,感兴趣的童鞋可以查看技术报告原文~

谁造的?

CoE 由一个 5 人组成的团队提出。

Zihan Wang 是美国西北大学计算机科学专业博士生,本科毕业于中国人民大学高瓴人工智能学院,研究聚焦于基础模型的自主性、效率以及长上下文理解。

Zihan Wang 曾在 DeepSeek 工作过,是 ESFT(Expert-Specialized Fine-Tuning)的论文一作。

ESFT 通过仅调整与任务相关的部分高效地定制采用 MoE,从而在减少资源和存储使用的同时提升效率和性能。

CoE 不是 Zihan Wang 第一次针对 DeepSeek 搞的 " 变体 "。

之前他还曾基于 verl 复现了 DeepSeek-R1(-Zero)框架—— RAGEN (Reinforcement learning AGENt),在 GitHub 揽星近 1k:

Zihan Wang 师从 Manling Li。Manling Li 是西北大学计算机科学系助理教授,此前曾在吴佳俊教授的指导下工作,并得到李飞飞教授的指导。

RAGEN 的贡献者名单中也有 Manling Li、吴佳俊、李飞飞的身影。

CoE 技术报告:http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea

CoE GitHub 链接:https://github.com/ZihanWang314/coe

参考链接:

[ 1 ] https://x.com/wzihanw/status/1896601518612021709

[ 2 ] https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file

[ 3 ] https://github.com/deepseek-ai/ESFT

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中将 数学 神经网络
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论