智东西 AI 前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影
短短半月,混元团队又向 3D 生成的 " 视野盲区 " 推进了一步。
智东西 9 月 2 日报道,今日,腾讯混元团队正式开源其 HunyuanWorld 1.0 世界模型的官方扩展模型 "HunyuanWorld-Voyager"。
这也是混元在近两个月内,围绕 3D 世界生成系统的第三次发布:7 月,团队首次开源 HunyuanWorld 1.0 模型,支持从文本或图像生成可漫游的三维场景;8 月,推出适配消费级显卡的 Lite 版本,降低部署门槛。
Voyager 则将目标从 " 生成一个可看的世界 " 进一步推向 " 构建一个可走、可扩展的世界 "。
它主要针对当前世界模型在长距离生成和视角一致性上的限制,首次引入 RGB-D 视频联合建模与空间缓存机制,可根据单张图和用户设定的相机轨迹,生成结构连续、深度一致的点云视频,并可直接导出为标准 3D 格式。
换句话说,它不仅能把视野之外的区域合理补全,还能持续 " 记住 " 用户走过的路径,并在空间中衔接新的视角内容。
根据斯坦福李飞飞团队主导的 WorldScore 排行榜,Voyager 在当前主流世界模型中平均成绩位列第一。
体验指路:
主页:
https://3d-models.hunyuan.tencent.com/world/
Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:
https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
一、多种 3D 任务解锁,直出结果可即用
Voyager 不仅继承了混元世界模型 1.0 的图生世界能力,还进一步解决了 " 用户走出原视角之后 " 的补全问题。其生成结果不仅可实时呈现,还能直接导出为标准 3D 格式(如点云、mesh),无需借助 Colmap、VGGT 等后处理工具。
具体来看,Voyager 可应用于以下典型任务:
1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;
2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;
3、图生 3D 与视频深度估计:支持从图像生成结构完整的 3D 物体,也可对普通视频进行深度补全,用于三维理解与后续建模;
图生 3D 物体
视频深度估计
二、引入新架构,空间建模能力显著增强
混元世界模型 -Voyager 架构是对混元世界模型 1.0 新视角内容的补全,引入了 " 世界一致视频扩散 " 与 " 长距离世界探索 " 两大核心机制。
此前,混元世界模型 1.0 模型已支持从文本或图像生成可漫游的三维世界,并输出标准 3D 格式,兼容游戏引擎。但当用户 " 走出 " 原始画面后,生成范围会受限。Voyager 解决的正是这类遮挡与长距离视角问题。
1、世界一致的视频扩散
目前,可控视频生成模型已经具备构建 " 世界模型 " 的潜力,但这类 " 图生视频 " 方案多停留在 RGB 模态,难以还原三维结构,限制了交互性和空间一致性。相比之下,显式生成 3D 场景(如点云、Mesh)可用于更真实的空间重建,但受限于训练数据和计算资源,难以在大规模场景中泛化。
混元世界模型 Voyager 结合了视频生成与显式 3D 建模两类方法,支持在用户设定相机轨迹和初始场景的条件下,生成空间一致的 RGB-D 视频序列,并可直接导出为点云格式的三维数据。
Voyager 首次在视频生成中引入 RGB+Depth 的双模态联合建模,形成 " 点云视频 ":
1、输入:图片 + 用户指定的相机轨迹;
2、输出:RGB-D 视频序列,每帧均具备像素级深度信息;
3、拼接机制:先在空间维度上拼接 RGB 和 D(Depth),再在特征维度上结合两模态信息,用 VAE 框架学习 RGB-D 的生成规律;
4、训练结构:由双流模块与控制模块组成,基于 Hunyuan-Video DiT 模型进行训练。
此外,为支撑训练需求,混元团队构建了一套可扩展的数据构建引擎,可自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖,批量生成可用于 RGB-D 建模的训练样本。基于该引擎,Voyager 融合真实视频与虚幻引擎合成数据,构建了包含超过 10 万段视频片段的大规模训练集。
这种机制让 Voyager 具备 " 原生 3D 记忆能力 ",无需后处理重建步骤即可生成空间一致、格式统一的 3D 点云。
2、长距离世界探索
Voyager 通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。
1、先生成一个初始场景点云缓存(来自 HunyuanWorld 1.0);
2、再将缓存投影至用户设定的相机视角;
3、利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。
这一方法兼顾空间结构记忆、视角可控与多视图一致性,意味着用户可以像玩第一人称游戏一样 " 自由走 ",所到之处都能被系统填补,并保持几何结构一致。
三、三项实验:验证空间一致性与重建质量
为全面验证 HunyuanWorld-Voyager 的性能表现,混元团队围绕视频生成质量、三维场景重建能力以及世界生成能力三个方向进行了系统实验,覆盖 RGB 视频质量、几何一致性与长距离空间表达等多个维度。
1. 视频生成:相似性与结构性指标均领先
在视频生成任务中,混元团队选取 RealEstate10K 数据集中的 150 个视频片段,并与四种开源的摄像头可控视频生成方法进行对比。
结果显示,Voyager 在全部指标上均优于现有方法。
定性分析中,Voyager 能够生成更为多样、结构清晰的视频帧,尤其在细节区域的保留上表现出色。例如在样例中,其他方法在相机大幅移动时易产生 α 影或结构塌陷,而 Voyager 仍能准确还原输入图像中的产品边界与材质细节。
2. 场景重建能力:融合 RGB-D,三维结构更准确
在场景生成任务中,Voyager 进一步验证了其 RGB-D 视频序列对三维结构重建的支持能力。混元团队使用 VGGT 方法作为后处理统一流程,对比核心模型的 RGB 视频生成后能否支持高质量点云还原。
结果表明,即便在仅使用 RGB 重建的场景下,Voyager 生成的视频在几何一致性方面也优于其他方法;而一旦加入原生深度信息初始化点云,重建精度进一步提升。
在 3D Gaussian Splatting 任务中,Voyager 成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。
3. 世界生成能力:跨域泛化与长距离空间表达能力增强
在更具挑战性的 WorldScore 静态基准测试中,Voyager 同样展现出领先能力。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。
Voyager 在该任务中获得最高平均分,验证了其空间一致建模机制具备跨数据域的泛化能力。
同时,由于生成条件一致,Voyager 在保证一致性的前提下,所驱动的相机运动幅度大幅超过对比模型,其对于长路径建模与多视角连续性控制更具备优势。
结语:让生成的世界走得更远
从静态场景到可控漫游,再到具备深度信息与空间拓展,Voyager 补足了混元世界模型在空间连续性上的一块关键能力。
从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种 " 边走边生成 " 的逻辑,正在成为 AI 理解空间的另一种可能。
登录后才可以发布评论哦
打开小程序可以发布评论哦