Nature：DeepMind新一代Dreamer架构突破强化学习泛化瓶颈

摘要

开发一种能够广泛学习解决各类任务的通用算法，一直是人工智能领域的根本性挑战。尽管现有强化学习算法可轻松应用于与其开发目标相似的任务，但要将其配置应用于新领域，仍需耗费大量专业人力进行调试和实验。本文提出的第三代 Dreamer 算法，仅凭单一配置就在 150 多个不同任务中超越了专业算法。该算法通过构建环境模型，并借助对未来情景的推演来优化行为。基于归一化、平衡和转换的鲁棒性技术，确保了跨领域学习的稳定性。据我们所知，Dreamer 是首个无需人类数据或课程设计，仅凭像素输入和开放世界中稀疏奖励，就能从零开始采集《我的世界》钻石的算法——这一成就曾被学术界视为检验人工智能能否实现长远像素级探索的重要挑战。我们的研究使得无需大量实验即可解决复杂控制问题，极大拓展了强化学习的应用范围。

关键词：DeepMind、DreamerV3 算法、通用强化学习（General RL）、世界模型（World Model）、《我的世界》（Minecraft）、无监督学习（Unsupervised Learning）、多任务泛化（Multi-task Generalization）

集智编辑部丨作者

论文题目：Mastering diverse control tasks through world models

发表时间：2025 年 4 月 2 日

论文地址：https://www.nature.com/articles/s41586-025-08744-2

期刊名称：Nature

在人工智能领域，开发一种无需调整超参数即可适应多样化任务的通用强化学习（RL）算法，一直是研究者追逐的 " 圣杯 "。传统 RL 算法（如 PPO）需针对不同任务进行繁琐调参，而专用算法（如 MuZero）虽性能卓越却难以迁移。2025 年 4 月，Google DeepMind 在《Nature》发表第三代 Dreamer 算法（DreamerV3），以单一固定配置在 8 大领域、150 余项任务中超越专用算法，更在无需人类数据的情况下，首次实现 AI 从零开始通关《我的世界》钻石收集任务。这一突破标志着通用 RL 向现实应用迈出关键一步。

DreamerV3 的核心架构

Dreamer 的核心创新在于其独特的 " 世界模型 - 评论者 - 行动者（World Model-Critic-Actor）" 架构，由三个神经网络协同工作，通过 " 想象未来 " 替代传统 RL 的试错学习：

1. 世界模型：将高维感官输入（如图像）压缩为低维表征（Latent Representation），并预测潜在行动的未来状态和奖励，其关键组件包括编码器、序列模型和动态预测器。

2. 评论者（Critic）：评估想象轨迹的长期价值，采用双热分布回归（Two-hot Regression）处理多模态奖励。

3. 行动者（Actor）：根据世界模型的预测和评论者的评估，基于归一化回报（Return Normalization）和熵正则化（Entropy Regularization）选择最优行动以最大化收益。

与传统 RL 算法不同，Dreamer 完全依赖世界模型生成的抽象轨迹进行决策，而非直接与环境交互。这种设计能够显著降低计算成本，同时提高算法的通用性。

图 1. Dreamer 的训练过程

关键技术：提升跨领域稳定性

为实现跨领域鲁棒性，DreamerV3 引入四项核心技术：

1. Symlog-Symexp 变换：对输入和奖励进行双对称对数压缩，避免极端值干扰

2. KL 平衡与自由比特：动态调整世界模型的目标函数权重，防止表征崩塌（Collapse）

3. 百分位回报归一化（Percentile Return Normalization）：将回报缩放至 [ 0,1 ] 区间，平衡探索与利用

4. 双热损失（Two-hot Loss）：将连续值预测转化为分类问题，可解决多模态分布难题

这些技术共同作用，使 DreamerV3 在从 Atari 游戏到机器人控制的跨越中保持超参数不变。

图 2. 世界模型的视频预测。

性能验证：碾压专用算法

研究团队从四个维度验证了 Dreamer 的性能：

1. 基准测试：全面覆盖多样化任务

在包括连续控制（如机器人运动）、离散动作（如游戏操作）、视觉输入（如像素级决策）等 8 个领域的 150 多项任务中，Dreamer 的表现与专用算法相当甚至更优。例如，在 Atari 游戏和机器人控制任务中，Dreamer 无需调整即可达到顶尖水平，证明了其泛化能力。

图 3. 基准测试分数。

2.《我的世界》钻石挑战：无人类数据的突破

《我的世界》的钻石收集任务需要智能体通过复杂的行为链（如资源采集、工具制作）达成目标，人类玩家通常需 20 分钟完成。此前，AI 算法需依赖人类数据（如视频预训练 VPT）或课程学习，而 Dreamer 首次在无任何先验知识的情况下，仅通过 1 亿环境步数（约 10 小时）成功挖到钻石，这一成果展示了无监督学习的巨大潜力。

图 4. 《我的世界》钻石挑战的表现。

3. 消融实验：鲁棒性技术的关键作用

通过消融研究，团队验证了 Dreamer 各组件的重要性：

世界模型的平衡性：库尔巴克 - 莱伯勒（KL）平衡和自由比特技术对稳定训练至关重要。

无监督目标的主导性：即使屏蔽任务特定奖励信号，Dreamer 仍能通过世界模型的无监督学习实现高效表征。这表明未来可通过互联网视频等无监督数据进一步预训练模型。

4. 扩展性：模型规模与性能的正相关

在 Crafter 和 DMLab 任务中，团队测试了参数规模从 1200 万到 4 亿的 6 个模型。结果显示，更大的模型和更高的梯度更新次数直接提升了任务性能，同时降低了数据需求。这一发现为通过计算资源扩展提升 AI 能力提供了明确路径。

图 5. 消融和稳健的 Dreamer 规模缩放。

未来方向：从通用模型到通用智能

Dreamer 的成功为 AI 研究开辟了多条新路径：

跨领域世界模型：训练单一模型掌握多领域知识，实现真正的通用智能。

无监督预训练：利用互联网视频等海量数据，进一步提升模型的初始能力。

机器人应用：将 Dreamer 的鲁棒性迁移至现实世界的机器人控制任务。

DeepMind 的这项研究不仅解决了强化学习的脆性问题，更推动了 AI 从 " 专用工具 " 向 " 通用助手 " 的转变。随着计算资源的增长和数据利用效率的提升，Dreamer 或将成为未来通用人工智能的基石之一。

「AI 时代的学习：共探学习的复杂性」主题读书会

在技术浪潮的冲击下，智能时代对人才培养的需求正发生根本性转变——学习已不再局限于简单的知识传递与记忆，当机器能够替代程式化技能，人类的创造力、批判性思维与跨界协作能力将成为核心竞争力；当知识更新周期以月甚至天为单位迭代，教育的使命不再是填鸭式灌输，而是培养终身学习者的自适应能力。

在此背景下，集智俱乐部联合江南大学教授王志军，北京师范大学教授崔光佐，翼鸥教育创始人宋军波，TalkingBrain 联合创始人林思恩，清华大学讲师方可，北京师范大学博士后郭玉娟，共同发起「AI 时代的学习：共探学习的复杂性」主题读书会。希望通过汇聚教育学、系统科学、脑科学、计算机科学、社会学等多领域交叉视角，突破单一学科的局限，对人类社会未来学习发展形成更加全面深入的认识。

详情请见：AI 时代的学习：共探人类学习的复杂性

探索者计划 | 集智俱乐部 2025 内容团队招募（全职 & 兼职）

宙世代

一起剪

相关标签