量子位 昨天
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

让大模型在学习推理的同时学会感知。

伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO ( Perception-Aware Policy Optimization ) 。

现有的强化学习算法(如 GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。

GRPO 错误:未能正确感知和区分不同物体

PAPO 正确:准确识别不同物体并准确计数

近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很少设计对于核心 GRPO 算法的改动。

而 PAPO 通过创新的隐式感知损失设计,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中感知与推理脱节的问题。

PAPO 的模型和数据均已开源,详细可见文末链接。

错误分析:发现感知瓶颈

PAPO 的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是视觉感知的准确性问题。

PAPO 团队对使用 GRPO 训练的 Qwen2.5-VL-3B 模型在四个基准数据集上的 200 个错误案例进行详细的人工分析和分类,结果显示:

感知错误占67.0%:模型无法准确解读视觉内容,如空间关系判断错误、标签关联错误等;

推理错误占 18.0%:逻辑推理过程中的错误,如应用错误的定理或规则;

计算错误占 10.0%:算术运算错误;

不一致错误占 5.0%:中间推理步骤与最终答案不符。

这一发现颠覆了人们对多模态推理失败原因的普遍认知——问题主要不在于逻辑推理能力,而在于视觉感知的准确性。

上图展现了一个典型例子:在一个几何推理任务中,用户询问 "Find x",正确答案是 9。

使用传统 GRPO 训练的模型会错误地将 x 与 60 度角对应的边关联,犯了感知错误;而 PAPO 训练的模型则正确识别了 x 是 30 度角对应的短边,得到了正确答案。

这个例子清晰地展示了 PAPO 在提升视觉感知准确性方面的显著效果。

PAPO:创新的内驱感知策略优化算法

基于上述发现,PAPO 提出了创新的隐式感知损失(Implicit Perception Loss)设计。

该方法的核心思想是:一个优秀的多模态推理模型应该在原始图像和损坏图像上产生显著不同的输出分布,这表明模型真正依赖于有意义的视觉内容。

下图展示了 PAPO 目标函数与传统 GRPO 的对比:

PAPO 的技术创新包括:

感知信息增益比设计:定义了感知信息增益比 rprcp= πθ ( o|q,I ) / π _ θ ( o|q,I_mask ) ,其中 I_mask 是通过随机遮盖补丁生成的损坏图像。

KL 散度最大化:通过最大化 KL 散度 DKL [ πθ ( o|q,I ) || π _ θ ( o|q,I_mask ) ] ,鼓励模型在原始图像和损坏图像上产生不同的输出。

无缝集成 GRPO:PAPO 作为 GRPO 的简单扩展,完整的目标函数为:J_PAPO=J_GRPO+ γ· KL_prcp

在损坏图像的遮盖上,PAPO 探索了两种图像基于 Patch 的掩码策略来生成损坏图像 I_mask。

如上图所示,与加入噪声的方式不同,基于 Patch 的掩码方式更能有效移除图像的语义信息:

随机遮盖:简单高效,随机选择图像补丁进行遮盖;

语义感知遮盖:利用 DINOv2 预训练模型识别显著区域并优先遮盖。

后续实验表明,尽管随机遮盖方法更简单,但效果反而优于复杂的语义感知遮盖,这可能是因为语义感知遮盖倾向于完全遮盖显著对象,而随机遮盖能保持更好的平衡。

实验验证:多方位超越 GRPO

PAPO 团队在 8 个多模态推理基准上对 Qwen2.5-VL-3B 和 7B 模型进行了全面评估。实验结果显示,PAPO 在所有基准上都取得了一致的改进。

实现了4.4%的整体平均提升,高视觉依赖任务(如 LogicVista、SuperClevrCounting)的8.0%显著提升;30.5%的感知错误减少。

上述实验结果表明,PAPO 成功解决了多模态推理中的感知瓶颈,无需额外的计算资源或外部模型。

在训练动态分析中,PAPO 相比 GRPO 也展现出明显更优的训练动态特征:

更快收敛:PAPO 从训练早期(约 25 步)就开始显现提升

更稳定训练:避免了 GRPO 中常见的奖励不稳定问题

持续改进:随着训练进程,改进效果不断增强

消融实验

除此之外,PAPO 团队还系统研究了隐式感知损失权重 γ 对性能的影响,发现:

γ 值适度增大(0.02 以内)能带来更显著的改进

γ 值过大(如 0.04)会导致严重的模型崩溃

大模型对高 γ 值更敏感,需要更早的正则化

掩码策略与比例优化

通过分析 PAPO 掩码策略和比例的影响关键发现:

相对大的(0.6-0.8)遮盖比例效果最佳

完全遮盖(比例 1.0)表现不佳,且容易导致模型崩溃

随机遮盖策略尽管简单但优于更复杂的语义感知遮盖

PAPO+ 移除 ReferenceKL 的协同效应

PAPO 团队验证了 PAPO 与移除原有的与 Reference 模型之间的 KL 约束的组合效果,发现 PAPO 与现有算法改进高度兼容。

这一结果表明 PAPO 不仅是一个独立有效的改进,还能与其他优化技术形成协同效应。

技术挑战:KL_prcp Hacking 现象

在深入研究 PAPO 时,研究团队发现了一种特有的模型崩溃现象—— KL_prcp Hacking。

当隐式感知损失权重 γ 设置过大时,模型会 " 钻空子 "过度优化 KL_prcp 项

具体表现为 Reward 快速的下降,熵快速增大,并开始出现生成无关内容。

崩溃特征如下:

生成与问题无关的 Token(相关性降低 18%)

KL_prcp 方差增加 8.4 倍

模型输出充斥无意义的 LaTeX 格式代码

PAPO 团队识别了 KL_prcp Hacking 的早期预警信号,发现了以下几个关键指标:

隐式感知损失急剧下降

训练奖励崩溃

裁剪比例 - 高持续增长

双策略熵损失同时上升

对 KL_prcp Hacking 的主要影响因素进行分析,发现:

损失权重:γ >0.02 容易导致崩溃

模型规模:大模型更敏感

遮盖比例:极端比例(如 1.0)风险更高

为了在高 - γ 设置中更好地正则化 KLprcp,PAPO 团队引入了双重熵损失,这是一种有效的正则化方法,能够在保持性能的同时防止崩溃。

这个想法源于 PAPO 团队的观察,即 πθ 和 πθ ^mask 中的展开熵增加是崩溃的早期迹象。双重熵损失鼓励模型保持这两种熵都较低,可以表示为:

其中 H 表示熵损失,计算为生成序列的负对数概率,而…部分与上述 PAPO 目标相同。

实验结果表明,双重熵损失可以在防止崩溃的同时保持最佳性能。

PAPO 的视觉依赖性分析

在评估多模态基准的视觉依赖程度时,PAPO 团队发现,许多主流的多模态推理基准中实际上包含大量非 " 多模态 " 任务。

例如题目的文本部分已经提供了丰富的视觉相关信息,使得模型即便不查看图像也能作出正确回答。

针对这一现象,作者对当前主流数据集进行了系统的视觉依赖性分析,并将任务划分为三个等级:

低依赖:文本中包含大部分视觉信息

中等依赖:需要视觉和文本信息结合

高依赖:主要依靠视觉理解

实验结果表明,PAPO 在高视觉依赖任务中改进最为显著(接近 8%);在中等依赖任务中表现稳定;即使在低依赖任务中也有一致改进。

这一分析进一步验证了 PAPO 针对感知瓶颈问题的精准定位,以及其进一步提升多模态推理的有效性。

以下是一些实际应用案例:

案例 1:直角三角形边长计算

GRPO 错误:将 x 与错误的边关联,得到 9 √ 3

PAPO 正确:准确识别 x 为 30 度角对应边,得到正确答案 9

案例 2:圆形几何问题

GRPO 错误:无法正确理解弦与圆心的距离关系

PAPO 正确:准确把握几何关系,计算出正确结果

案例 3:物体计数问题

GRPO 错误:未能正确感知和区分不同物体

PAPO 正确:准确识别不同物体并准确计数

案例 4:多图逻辑推理问题

GRPO 错误:错误的视觉感知和视觉推理

PAPO 正确:准确识别不同子图中的视觉特征,并进行正确的逻辑推理

通过以上案例可以看出,在复杂几何问题中,PAPO 显著提升了模型对图形关系的理解。

项目主页:https://mikewangwzhl.github.io/PAPO/

论文:https://arxiv.org/abs/2507.06448

GitHub:https://github.com/MikeWangWZHL/PAPO

模型:https://huggingface.co/collections/PAPOGalaxy/papo-qwen-686d92dd3d43b1ce698f851a

数据:https://huggingface.co/collections/PAPOGalaxy/data-686da53d67664506f652774f

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

准确 阿里巴巴 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论