大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个 " 错题本 "？

上海 AI Lab 提出了一种新的学习方式，构建了 " 错误 - 反思 - 修正 " 数据，让大模型仿照人类的学习模式，从错误中学习、反思。

结果，在 Llama3-8B 上，数学题的解题准确率平均提升了 13.3%。

这种方法名为 LEMMA（Learning from Errors for Mathematical Advancement），专门教大模型如何从错误中学习。

作者通过深入分析模型犯下的错误，构建了 " 错误 - 纠正 " 数据集，并利用反思机制，引导模型从错误的思路平滑过渡到正确的答案。

结果，模型不仅获得了准确率的提升，还获得了超强的自主纠错能力和泛化能力。

相关论文已发表于 ACL ’ 25 Findings。

用教师模型生成 " 错题本 "

作者首先系统分析了当前主流大模型在数学题中常见的七大类错误（如题意误解、公式混淆、计算失误等），发现这些错误在不同模型之间分布非常一致。

结果显示，大模型犯下最多的错误是误解题意，占比超过 40%，随后的两张常见错误类型是公式混淆和计算错误。

了解了模型都会犯哪些错误，接下来就可以有针对性地生成数据了。

过去，整个过程往往通过提高采样 Temperature（如 T=1.0 或 T=1.1）来完成。

但作者发现高 Temperature 采样会引入大量无意义的（如语义不通、毫无逻辑）错误，这种错误实际上是模型不会犯的。

作者认为，这种 " 已读乱回 " 式的错误，难以让模型真正提升自我纠错能力。

为此，LEMMA 采用了新的方法，让教师模型定向制造 " 学生会犯的错 "，构造 " 反思式 " 数据：

具体来说，LEMMA 提出了一种全新的反思数据构造策略，主要包括三个环节：

首先，分析学生模型常犯哪些错（如题意误解、公式误用、计算失误）；

然后让强大的教师模型（GPT-4o），根据学生模型在每个问题上的错误类型，有针对性地故意引入特定错误；

之后，教师模型还会标出第一个错误发生的步骤，并生成反思和改正，确保模型学会 " 及时反思 "。

在反思和改正阶段：LEMMA 采用了两种更贴近人类思维的纠错方式——一是返回上一步，二是直接推倒重来。

引入第二种修正方式的原因在于，作者发现大模型在有的题目上出错的根本原因，是一开始就选择了低效的暴力解法，这样即使修正了某个中间的错误步骤，也会在后续的推理中犯错，不如从头开始选择更 " 聪明 " 的解法。

总的来说，LEMMA 构建的是 " 有目标、有指导、有反馈 " 的错误数据，让模型能像学生一样反思：" 我错在哪？应该怎么改？"

实验结果

对比多种主流反思修正方法，优势明显。

作者对比了包括 RefAug、RFT，ISC、S3C-Math 在内的八种主流 baseline 方法。

结果表明，LEMMA 在常见的数学任务上正确率更高，在 Llama3-8B 上准确率提升了最高达 13.3%。

并且，LEMMA 有效提升了模型的反思和自我修正能力。

在 MathChat 任务中，LEMMA 在 " 追问回答 " 和 " 错误修正 " 两大任务上领先 SOTA 方法（Dart-MATH）多达 6.3 和 4.1 个百分点。

同时，LEMMA 也显著减少了模型的常见错误。

在生成的数据上进行微调之后，LEMMA 一致地降低了各种错误类型，提升模型推理精度。

相比之下，SFT 虽然整体准确率提升，但却在某些错误类型（如公式混淆）上反而变差。

另外，作者进行的消融实验也充分验证了 " 教师模型错误引入（Error Aug. ) " 和 " 从头修正（Fresh & Restart）" 两个关键模块的有效性。

总之，LEMMA 提出了一种让大模型在数学推理中 " 从错误中有效学习 " 的创新方法，提升了模型对推理错误的识别与修复能力。

相比以往依赖高 Temperature 采样和简单拼接的反思数据合成方式，LEMMA 显著提高了 " 错误 - 反思 - 修正 " 数据的质量，提升了模型的数学推理能力。

论文地址：

https://arxiv.org/abs/2503.17439

代码仓库：

https://github.com/pzs19/LEMMA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代