量子位 02-09
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。

然而,在实际优化过程中,开发者往往面临 " 拆东墙补西墙 " 的窘境:提升了相关性,一致性可能随之下降。如何让模型在多个目标之间达成完美的 " 帕累托最优 "(Pareto optimal)?

近日,Li Auto 团队一项被ICASSP 2026接收的研究提出了HyperVolume Optimization(HVO)。这是一种全新的多目标强化学习(MORL)策略,它基于 GRPO 框架,无需 SFT 或冷启动,就能让 7B 参数的模型在摘要任务上展现出媲美 GPT-4 的性能,且生成内容更加简洁。

△ HVO 性能对比雷达图研究背景核心痛点:多目标优化的 " 不平衡 "

文本摘要生成是自然语言处理(NLP)中的一项核心且具有挑战性的任务。为了全面评估生成摘要的质量,研究人员通常会考察多个维度,例如连贯性、一致性、流畅性和相关性。然而,同时优化这些维度的目标具有挑战性,因为在一个维度上的改进可能会导致其他维度的妥协,从而产生不平衡的摘要。

目前的文本摘要研究多依赖单一奖励信号,难以整合多维度指标。即便采用多维度奖励,通常也只是简单地将各项得分进行加权线性组合(Weighted Linear Combination)。

传统方法的局限性

这种传统做法存在明显局限:

1. 人工依赖:需要繁琐的手动配置权重

2. 目标冲突:无法有效处理目标间的相互依赖,容易导致优化结果不完整或严重失衡

此前虽有 MDO 等方法尝试通过梯度投影缓解冲突,但因计算成本过高,难以集成到大语言模型(LLM)中。

方法介绍创新方案:引入超体积指标 HVO

为了解决上述问题,研究者将多目标优化中的超体积(Hypervolume)概念引入到了强化学习的奖励结构中。

HVO 的三大技术亮点

1. 基于 GRPO 框架

借鉴了类似 DeepSeek-R1-Zero 的训练范式,HVO 直接在基础模型上应用组相对策略优化(GRPO),无需经过监督微调(SFT)。

其中:

2. 动态调整得分

HVO 利用超体积方法,在强化学习过程中动态调整不同得分组之间的权重,引导模型逐步逼近帕累托前沿。

3. 长度约束机制

为解决 GRPO 训练中常见的稳定性不足和 " 长度坍缩 " 问题,HVO 提出了一种新的长度约束奖励(Rconciseness),通过控制压缩比确保模型在简洁的同时保持稳定收敛。

方法流程图

△   HVO 整体流程示意图。通过超体积计算替代简单的加权求和,使模型倾向于选择各维度表现更均衡的解。实验结果:7B 模型的 " 降维打击 "

研究团队在CNN/DailyMail(新闻类)和BillSum(法律类)两大基准数据集上对 HVO 进行了验证。实验基座采用Qwen 2.5-7B-Instruct

1. 综合素质超越 GPT-4

在多维度评估工具 UniEval 的测试中,经过 HVO 增强的 7B 模型表现惊人:

在两个数据集上的 HV 得分和总分均优于所有基准方法

对比 GPT-4:虽然 GPT-4 在连贯性和相关性上有微弱优势,但 Qwen 2.5 7B(HVO)在整体性能和维度平衡性上与 GPT-4 旗鼓相当

2. 更均衡的雷达图表现

对比 GRPO 发现,GRPO 在训练早期会过度追求流畅性和相关性,从而限制了一致性的提升。而HVO 能够均匀地优化各项指标,在雷达图上展现出更饱满、更稳定的覆盖区域。

3. 拒绝 " 废话 ",更加简洁

散点图分析显示,HVO 在保持最高总分的同时,生成的摘要长度更短,展现了极佳的简洁性(Conciseness)。

结论与展望核心贡献

本文介绍了超体积优化强化学习方法(HVO),这是一种用于文本摘要的多目标强化学习框架,可在高维目标空间中直接优化超体积指标。通过平衡多个评估指标,HVO 实现了更稳定、更高效地向帕累托前沿逼近的轨迹。

实验验证

在 CNN/DailyMail 和 BillSum 上的实验表明,HVO 取得了最先进的超体积和整体分数,优于现有方法,且可与 GPT-4 相媲美,无需监督微调或冷启动初始化。

研究意义

这些结果证实了 HVO 在处理复杂权衡和生成高质量摘要方面的有效性,为多目标文本摘要提供了一个稳健的解决方案。它证明了通过科学的优化策略,较小规模的开源模型完全有潜力在特定任务上对标顶尖闭源大模型

未来方向

研究团队表示,未来将探索:

将 HVO 扩展到更多 NLP 任务

探索更复杂的奖励结构

在更大规模模型上的应用潜力

论文标题:

Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization

论文地址:

https://arxiv.org/abs/2510.19325

代码仓库:

https://github.com/ai4business-LiAuto/HVO ⭐ 已开源

收录会议:

ICASSP 2026

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论