效率2倍于Transformer！彩云科技推出全新模型架构，高分登机器学习顶会ICML

作者 | 香草

编辑 | 李水青

智东西 6 月 3 日报道，近日，AI 技术公司彩云科技发布了全新通用模型结构DCFormer，通过改进注意力矩阵，在相同训练数据下，最高可以将算力智能转化率提升至Transformer的2倍。

具体来说，DCFormer 改变了向量矩阵的推理通路，将 Transformer 结构中绑定的矩阵改进为任意线性组合，可以用 2 组原来的注意力矩阵组合出 4 种搭配，用 8 组注意力矩阵组合出 64 种搭配。

根据实验，在相同训练数据和算力下，用 DCFormer 架构改进后的 69 亿参数模型，拥有比 120 亿参数模型更好的效果。如果 GPT-4o 能够应用，其推理一次 128k 上下文的成本，就可能从 4 元变成 2 元。

▲同一款模型在 DCFormer 架构改进前后的性能偏移曲线

该模型结构相关论文已于 5 月 15 日发布在 arXiv，并将在第 41 届国际机器学习大会 ICML 2024 正式发表。彩云科技引用一位 ICML 评委的话透露，今年录用论文的平均分为 4.25-6.33，而 DCFormer 论文获得平均7分。

DCFormer 模型代码、权重和训练数据集已开源发布，相关成果后续将在彩云科技旗下彩云天气、彩云小译等产品，以及小梦 V4、小梦 V5 等模型上应用。

在媒体沟通会上，智东西及少数媒体与彩云科技CEO袁行远进行了深入交谈。

当智东西问道，与市面上其他挑战 Transformer 的模型架构，如 Mamba、RetNet 等相比，DCFormer 采取的路径有什么不同？具体有哪些差异化优势？

袁行远称，Mamba 等架构对模型的改动都比较大，是没有办法在已有模型上去做改进的，需要从头重新训练模型。

相较之下，DCFormer 是在 Transformer 的基础上进行改进，能够和现有的模型叠加，而不是互斥，因此所有基于 Transformer 架构的大模型都能在 DCFormer 的基础上降低成本

DCFormer 对 Transformer 的改动很小，那么为什么 7 年间没有其他团队实现这一突破？是没有想到这个路径，还是其他原因？

袁行远告诉智东西，实际上这个路径之前也有人想到，但其大多选择在预训练之后去改进，没有达到理想的效果。为什么彩云科技做到了？袁行远用 " 中二 " 这个词来形容自己和团队，" 我们相信能做到，并且坚持做了下去。"

谈及近期大模型厂商之间的 " 价格战 "，袁行远认为，现在处于一个市场抢占的过程，大模型的价格肯定是存在一些补贴的。从电力发展的历程来看，这些资源未来都会变得越来越便宜，甚至免费，因此厂商提前去做一些补贴也不会有太大的影响。

同时，如果大模型厂商能利用 DCFormer 架构压缩大模型训练推理的成本，也能进一步降低自身的成本，在提供低价云服务时更具优势。

论文地址：

https://arxiv.org/abs/2405.08553

开源地址：

https://github.com/Caiyun-AI/DCFormer

一、算力智能转化率提升2倍，可将 GPT-4o 成本压缩一半

在传统的 Transformer 模型中，如果输入 " 上海的简称 " 和 " 中国的人口 "，它们将分别被拆分成两组注意力矩阵 Q1、K1、V1、O1 和 Q2、K2、V2、O2。

但其中，QKVO 这四个矩阵是绑定的，因此要解决新问题，必须重新再来 2 组注意力矩阵。

比如输入新问题 " 上海的人口 " 和 " 中国的简称 "，Transformer 模型需要 Q3、K3、V3、O3 和 Q4、K4、V4、O4 这两组新矩阵来解决。

而在 DCFormer 中，查找通路和变换通路可以根据输入的不同而任意组合。对于上面这两个新问题，只需要搭配成 Q1、K1、V2、O2 和 Q2、K2、V1、O1，就能在不创造新矩阵的条件下解决问题。

这就意味着，可以用 2 组原来的注意力矩阵组合出 4 种搭配，用 8 组注意力矩阵组合出 64 种搭配。

▲ DCFormer 与 Transformer 在注意力矩阵上的搭配

袁行远为我们举了个用更通俗的例子：Transformer 就像一家只能点套餐的麦当劳，麦辣鸡腿堡只能搭配可乐，奥尔良烤鸡只能搭配薯条；而 DCFormer 就是可以任意单点的麦当劳，麦辣鸡腿堡可以搭配薯条，奥尔良烤鸡也可以搭配可乐，甚至可以只点半个麦辣鸡腿堡，组合半只奥尔良烤鸡。

反映在具体模型上，DCFormer 可以达到 1.7-2 倍算力的 Transformer 模型效果，即算力智能转化率提升 1.7-2 倍。

袁行远称，如果 GPT-4o 能够用上 DCFormer，推理一次 128k 上下文的成本，就可能从 4 元变成 2 元。此外，DCFormer 模型越大效果越好，考虑到 GPT 模型的巨大参数量，在千亿、万亿模型上，DCFormer 可能将价格压缩至一次 128k 上下文推理 1.5 元、1 元。

二、打开神经网络 " 黑盒 "，动态组合改进注意力机制

Transformer 架构问世已经 7 年，期间虽然不乏挑战者，但能真正做到有效改进的架构并不多。无论是国内还是海外，Transformer 仍是使用率最高的模型基础架构。

袁行远认为，如果底层模型没有突破，AI 终将停滞不前，" 人人都说神经网络是个黑盒，我们需要勇气和耐心打开这个黑盒，通过分析模型运转原理，我们才能知道智能的本质规律，从而可以改进模型，提高模型的运行效率。"

为了改进 Transformer，彩云科技团队提出了一种动态可组合多头注意力机制（DCMHA），通过动态组合注意力头来提高 Transformer 的表达能力。

▲ DCFormer 整体架构及计算合成

论文提到，该机制的核心是一个可学习的 Compose 函数，能够根据输入数据变换注意力分数和权重矩阵，这种动态性增加了模型的表达能力，同时保持参数和计算的效率。

将 DCMHA 应用于 Transformer 架构中，就得到DCFormer 模型。实验结果表明，DCFormer 在不同架构和模型规模上的语言建模任务上显著优于原始的 Transformer，甚至在计算量减少的情况下也能达到相似的性能。

▲ Transformer 和 DCFormers 的 Scaling 曲线

在众多 NLP 下游任务和图像识别任务上的测评也验证了 DCFormer 的有效性。根据实验，DCFormer 对性能算力比的提升幅度，超过被广泛采用的两项结构改进架构 Transformer++ 的提升幅度之和。

随着模型规模的增大，DCFormer 的提升越来越大，而 Transformer++ 的提升越来越小。可以说，DCFormer 让 Transformer 的能力又跃上一个新台阶。

三、将用于天气、翻译、写作产品，以 1/10 价格提供 10 倍效率

谈到未来的发展战略，袁行远分享道，首先是在 2 倍效率提升的基础上继续提升优化效率，目标是以目前 1/10 的价格，提供 10 倍以上的智能能力。

其次，DCFormer 将应用于彩云科技目前的三款应用产品矩阵中，包括彩云天气、彩云小译、彩云小梦。

彩云天气是一款分钟级高精度天气预报应用，其基于三维时空卷积神经网络技术，每天为公众和开发者提供超过 15 亿次天气预报服务。据介绍，彩云天气目前累计用户数超 5000 万，每日服务上百万用户。

▲彩云天气的实时天气预测

袁行远谈道，基于 DCFormer 带来的模型效率的提升，彩云天气有望在未来将分钟级的高准确率预测时长，从 2 小时扩展到 3-12 小时。

彩云小译是一款中英同传应用，基于残差长短期记忆网络提供服务，目前月活超 100 万，每天翻译量达到 10 亿字。

袁行远向我们分享了一个有趣的数据：在彩云小译的翻译服务中，有 80% 的流量都用于小说翻译。他认为，虽然这看起来是娱乐用途，但小说本质上是对世界的模拟。

彩云小梦是一款 AI RPG（角色扮演游戏）平台，基于相对位置编码与人设编码的 Transformer 能力，有超过 1500 万用户创作的虚拟角色，国内版日产 4 亿字。

目前，彩云小梦基于 V2、V3 模型，在保持逻辑通顺与描写细致的前提下单次可以创作几百字到一千字的内容。袁行远称，在 DCFormer 的加持下，下一代 V4、V5 版本有希望扩展到 2-5 千字的创作；再通过故事工程优化，目标是一年内可以轻松创作出达到专业作家水平的 5 万字长度中篇故事，同时小梦角色扮演的故事体验也能达到专业编剧的水平。

结语：大模型算力智能转化率现新里程碑

DCFormer 的推出，让大模型在提升效率和降低成本方面迈出重要一步。其模型代码、权重和训练数据集已全面开源，期待计算机科学界和产业界能在 DCFormer 的基础上，带来更多研究与应用上的精彩演绎。

宙世代

逗玩.AI

相关标签