量子位 08-18
超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一个小解码器让所有模型当上领域专家!华人团队新研究正在引起热议。

他们提出了一种比目前业界主流采用的 DAPT(领域自适应预训练)和 RAG(检索增强生成)更方便、且成本更低的方法。

相比 DAPT,不需要昂贵的全参数训练;

相比 RAG,不依赖昂贵的检索。

而且实验结果显示,其方法能够显著提升 Qwen 和 Llama 等模型在三个专门领域(生物医学、金融、法律)的效果,并使困惑度平均降低 6.17 分(相当于预测下一个词的正确率提升了约 20%~25%)。

好好好,不卖关子了,原来这是来自上海交大、上海 AI Lab 等机构的研究人员提出的一个名为"Memory Decoder"预训练记忆模块——

通过使用一个小型的前置解码器(former decoder),能够学习模仿外部非参数检索器的行为。

翻译成大白话就是,Memory Decoder 就像给大模型加了一个 " 领域知识插件 ",既高效又灵活,为大模型适应特定领域提供了一种新方法。

划重点,即插即用、无需改变原始模型参数、可以和任何共享相同分词器的大语言模型集成

对于这一新研究,有网友激动表示,这改变了游戏规则。

下面详细来看论文内容。

一种即插即用的预训练记忆模块

随着大模型在通用任务中适应良好,业界目前均在尝试用不同方法让其更适配特定领域。

论文也是瞄准了这一目标,并提出了一种即插即用的预训练记忆模块——Memory Decoder

和 DAPT、RAG 等主流方式相比,其优势相对明显:

(1)DAPT(领域自适应预训练)需要对模型全参数进行训练(即把模型整个重新训练一遍),成本高昂,且容易出现 " 灾难性遗忘 "(即忘记之前学到的通用知识)。

(2)RAG(检索增强生成)则因需要进行耗时的近邻搜索,且处理更长的上下文,通常会导致推理速度变慢(延迟增加)。

而 Memory Decoder 本质上是一个小型 Transformer 解码器(作为 " 记忆模块 "),其核心思路为:

在预训练阶段,让它学习模仿一个外部检索器的行为,把特定领域的知识压缩到自己的参数里;

在推理阶段,把它和大模型一起使用,通过结果融合提升预测质量。

举个例子,当用户问 " 大众汽车的 CEO 是谁?" 时,大模型通常可能基于通用语料,给出一个模糊的分布(如 " 马斯克 30%,布鲁默 40%,库克 20%"),但未必足够准确。

有了 Memory Decoder 后,由于已经在预训练中学会了模仿检索器的行为,会更倾向输出 " 布鲁默 " 的分布(如 " 布鲁默 80%,马斯克 10%,库克 5%")。

最终,模型会将二者的结果进行插值融合,从而得到更可靠的答案。

这样一来,Memory Decoder 就像给大模型配了一个 " 领域小助手 ",既能避免重新训练的高成本,也能免去实时搜索资料库带来的延迟问题,真正实现了低成本、高效率、即插即用的领域增强。

多种 Qwen/Llama 模型更懂医学、法律和金融了

为了验证 Memory Decoder 的有效性,团队选用了多种 Qwen(从 0.5B 到 72B 参数)和 Llama 系列(从 1B 到 70B 参数)的预训练语言模型,来测试其在生物医学、金融、法律这三个专业领域的效果。

之所以选这三个,主要是因为它们对模型的专业知识储备要求高,而且传统适配方法经常 " 铩羽而归 "。

具体衡量指标则为 Perplexity(困惑度)——数值越低表示模型对该领域文本的理解和预测越准确

最终实验结果如下:

可以看到, 不管原模型参数量多大,Memory Decoder 均能起到领域增强作用,而且比传统 LoRA 方法更有效。

更关键的是,在 Qwen2.5 上训练的 Memory Decoder,只需极少的额外训练(仅为原始训练成本的 10%),就能适配 Llama 系列模型——

不仅显著降低了所有 Llama 变体模型的困惑度,而且在生物医学和金融领域的表现持续优于 LoRA 方法。

整体而言,在生物医学、金融、法律三个领域中,使用 Memory Decoder 的多种 Qwen 和 Llama 模型,平均降低了 6.17 分困惑度,初步验证了 Memory Decoder 的有效性。

不过作者们也在论文最后提到了其局限性:

训练阶段存在计算开销

训练 Memory Decoder 的时候,得从一个大数据库里搜很多相关信息来当 " 学习材料 ",这个搜索过程会消耗不少计算资源。虽然每个领域只需要这么干一次,之后能给各种模型用,但训练阶段这一步依旧无法免去。

跨分词器适配仍需部分参数更新

要想把在 A 模型(如 Qwen2.5)上训练好的 Memory Decoder 用到 B 模型(如 Llama)上,仍需要对嵌入空间进行一些参数更新以实现对齐。

虽然跨分词器适配相比从头训练需要的训练量极少,但无法实现真正意义上的零样本跨架构迁移。

但是有一说一,Memory Decoder 最大的意义或许在于,它提出了一种新的范式——

基于特别预训练的记忆组件来进行领域自适应。

这一记忆架构可以即插即用地集成到目标领域的多种模型中,并持续提升性能。

论文:

https://www.arxiv.org/abs/2508.09874

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

准确 库克 上海 大众汽车 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论