量子位 昨天
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。

但当我们将目光转向更为复杂的文本到 3D 生成时,这套方法还会还管用吗?

近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。

论文链接:https://arxiv.org/pdf/2512.10949

代码链接:https://github.com/Ivan-Tang-3D/3DGen-R1

强化学习是否能够用于 Text-to-3D 生成,以加强 3D 自回归模型的逐步推理与生成过程?

在 LLM 推理和 2D 文生图中,RL 已经证明可以显著提升 CoT 推理能力和生成质量。但 3D 物体更长、更稠密、更具几何约束。

因此相关方向研究常面临这几个问题:

1.  奖励如何同时刻画语义对齐、几何一致性和视觉质量?

2.  现有 RL 算法是否适合自回归式 3D 生成?

3.  缺乏专门考察 "3D 推理能力 " 的 Benchmark,难以系统评估 RL 的真实贡献。

Progressive Investigation:四个层次拆解 Text-to-3D+RL1. Reward 设计层

经过系统对比人类偏好、文本对齐、多视图一致性、3D 美学等多种奖励组合。研究团队发现:

1)对齐人类偏好信号是提升整体 3D 质量的关键。其他奖励维度单独使用时带来的提升有限,但在叠加到偏好奖励之上时能够持续带来增益;

2)对于同一奖励维度而言,专门化的奖励模型通常比大型多模态模型(LMMs)表现出更强的鲁棒性。然而,通用多模态模型(Qwen-VL)在 3D 相关属性上出乎意料地鲁棒,为 " 低成本奖励 " 提供可能。

2. RL 算法层

评估 GRPO、DAPO、GSPO 等在 3D 自回归生成中的表现。主要 Insight:

1)相比序列级操作,3D 自回归生成中的强化学习更偏好 token 级策略。

如表 2 所示,在相同奖励模型配置下,token 级平均策略带来的提升显著大于序列级的重要性采样与剪切方法(GSPO)。

2)简单的技巧即可稳定训练,尤其是 Dynamic Sampling,只要策略更新受控。完全移除 KL 惩罚会导致性能下降;而像 Decoupled Clip 这类更可控的方法,通过鼓励对低概率 token 的探索,仍能带来性能增益。

3)扩大量级的训练数据能够有效缓解偏好奖励带来的偏差并提升整体表现;适度增加 RL 迭代也能进一步优化模型,但过度训练可能损害泛化能力。

3. Benchmark 层:MME-3DR

构建首个针对 3D 推理场景的系统评测基准 MME-3DR:由空间 & 结构几何,机械可供性与物理合理性,生物 / 有机形态,长尾稀有实体和风格化 / 抽象形态五类组成。

MME-3DR 希望更关注 " 在困难约束下是否还能保持一致、合理、可解释 ",而非只展示多样性。研究团队发现:

1)近期的 Text-to-3D 模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足。RL 训练在所有五类任务上都带来了显著提升。如图中雷达图所示。

2)MME-3DR 能同时评估隐式推理与通用 3D 生成能力。图中柱状图显示,在随机采样的 Toys4K 测试集上,Trellis 明显优于 ShapeLLM-Omni。这一性能差距在 MME-3DR 中依然保持,进一步验证了其多样化物体覆盖带来的评测有效性。

4. RL 范式层:Hi-GRPO & AR3D-R1

把 3D 生成看作天然的 coarse-to-fine 过程:

Step 1:高层语义先决定整体几何骨架;

Step 2:在几何稳定的前提下细化纹理与局部结构。

对两个 step 团队单独设计专有奖励模型集成进行监督,基于此提出层次化 RL 范式 Hi-GRPO,并实现首个 RL 加持的 Text-to-3D 自回归模型 AR3D-R1。

关键发现:RL 正在帮 3D 生成模型 " 学会思考 "

1. 不仅仅是 " 调美观 "

在 MME-3DR 上,RL 训练后的模型在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式 3D 推理能力的增强。

2. 范式对齐结构先验很重要

尊重 " 先几何、后纹理 " 的层次结构设计(Hi-GRPO),比简单在最终图像上打分更有效,也更可解释。

3. 性能与稳定性的二元博弈

奖励过于稀疏或 RL 迭代数过大,会带来训练不稳和模式坍缩;高质量人类偏好或强多模态奖励,可以在同等训练预算下取得更高回报。

4. 同时,结果清晰的显示出当前模型的能力边界

对极复杂几何、长尾概念和强风格化场景,模型仍会 " 逻辑崩坏 ";真正可扩展的 3D RL 仍受限于算力与奖励获取成本。

更多可视化结果:

论文标题:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

作者单位:西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学  

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

北京大学 人工智能 香港中文大学 上海 西北工业大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论