大模型学习不仅要正确知识,还需要一个 " 错题本 "?
上海 AI Lab 提出了一种新的学习方式,构建了 " 错误 - 反思 - 修正 " 数据,让大模型仿照人类的学习模式,从错误中学习、反思。
结果,在 Llama3-8B 上,数学题的解题准确率平均提升了 13.3%。
这种方法名为 LEMMA(Learning from Errors for Mathematical Advancement),专门教大模型如何从错误中学习。
作者通过深入分析模型犯下的错误,构建了 " 错误 - 纠正 " 数据集,并利用反思机制,引导模型从错误的思路平滑过渡到正确的答案。
结果,模型不仅获得了准确率的提升,还获得了超强的自主纠错能力和泛化能力。
相关论文已发表于 ACL ’ 25 Findings。
用教师模型生成 " 错题本 "
作者首先系统分析了当前主流大模型在数学题中常见的七大类错误(如题意误解、公式混淆、计算失误等),发现这些错误在不同模型之间分布非常一致。
结果显示,大模型犯下最多的错误是误解题意,占比超过 40%,随后的两张常见错误类型是公式混淆和计算错误。
了解了模型都会犯哪些错误,接下来就可以有针对性地生成数据了。
过去,整个过程往往通过提高采样 Temperature(如 T=1.0 或 T=1.1)来完成。
但作者发现高 Temperature 采样会引入大量无意义的(如语义不通、毫无逻辑)错误,这种错误实际上是模型不会犯的。
作者认为,这种 " 已读乱回 " 式的错误,难以让模型真正提升自我纠错能力。
为此,LEMMA 采用了新的方法,让教师模型定向制造 " 学生会犯的错 ",构造 " 反思式 " 数据:
具体来说,LEMMA 提出了一种全新的反思数据构造策略,主要包括三个环节:
首先,分析学生模型常犯哪些错(如题意误解、公式误用、计算失误);
然后让强大的教师模型(GPT-4o),根据学生模型在每个问题上的错误类型,有针对性地故意引入特定错误;
之后,教师模型还会标出第一个错误发生的步骤,并生成反思和改正,确保模型学会 " 及时反思 "。
在反思和改正阶段:LEMMA 采用了两种更贴近人类思维的纠错方式——一是返回上一步,二是直接推倒重来。
引入第二种修正方式的原因在于,作者发现大模型在有的题目上出错的根本原因,是一开始就选择了低效的暴力解法,这样即使修正了某个中间的错误步骤,也会在后续的推理中犯错,不如从头开始选择更 " 聪明 " 的解法。
总的来说,LEMMA 构建的是 " 有目标、有指导、有反馈 " 的错误数据,让模型能像学生一样反思:" 我错在哪?应该怎么改?"
实验结果
对比多种主流反思修正方法,优势明显。
作者对比了包括 RefAug、RFT,ISC、S3C-Math 在内的八种主流 baseline 方法。
结果表明,LEMMA 在常见的数学任务上正确率更高,在 Llama3-8B 上准确率提升了最高达 13.3%。
并且,LEMMA 有效提升了模型的反思和自我修正能力。
在 MathChat 任务中,LEMMA 在 " 追问回答 " 和 " 错误修正 " 两大任务上领先 SOTA 方法(Dart-MATH)多达 6.3 和 4.1 个百分点。
同时,LEMMA 也显著减少了模型的常见错误。
在生成的数据上进行微调之后,LEMMA 一致地降低了各种错误类型,提升模型推理精度。
相比之下,SFT 虽然整体准确率提升,但却在某些错误类型(如公式混淆)上反而变差。
另外,作者进行的消融实验也充分验证了 " 教师模型错误引入(Error Aug. ) " 和 " 从头修正(Fresh & Restart)" 两个关键模块的有效性。
总之,LEMMA 提出了一种让大模型在数学推理中 " 从错误中有效学习 " 的创新方法,提升了模型对推理错误的识别与修复能力。
相比以往依赖高 Temperature 采样和简单拼接的反思数据合成方式,LEMMA 显著提高了 " 错误 - 反思 - 修正 " 数据的质量,提升了模型的数学推理能力。
论文地址:
https://arxiv.org/abs/2503.17439
代码仓库:
https://github.com/pzs19/LEMMA
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦