挑战闭源格局！腾讯混元3D 2.0开源发布，性能对标商业级模型

长期以来，3D 世界建模领域存在两大技术 " 孤岛 "：生成式模型擅长从文本、单图创作天马行空的 3D 场景，但几何精度不足、视角一致性差；重建式模型能从多图、视频中还原真实 3D 结构，却缺乏生成想象力，难以处理稀疏输入。腾讯此次 HY-World 2.0 的发布，首次将这两大能力融合，构建了从 " 稀疏输入 " 到 " 可交互 3D 世界 " 的完整技术闭环。

据腾讯官方文档，作为 3D 世界的 " 第一块拼图 "，HY-Pano 2.0 解决了传统全景生成依赖相机参数、场景结构破碎的行业痛点。通过 Multi-Modal Diffusion Transformer（MMDiT）实现视角到全景的隐式转换，无需任何相机元数据，就能从单张图片或一段文本中生成结构连贯、细节丰富的 360 ° 全景场景。

（技术报告地址：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf）

在文本到全景（T2P）任务中，CLIP-T 指标达行业最高的 0.258，Q-Align 美学评分较竞品提升 12%；在图像到全景（I2P）任务中，全指标排名第一，几何一致性远超 CubeDiff、GenEx 等模型。

有了高质量的全景基础，如何高效探索 3D 世界成为新的挑战。HY-World 2.0 设计了语义感知轨迹规划模块，通过全景点云、语义掩码与导航网格的融合分析，自动生成多样化轨迹模式，实现无碰撞、全覆盖的相机路径规划。这一技术不仅确保了后续 3D 重建时无视角盲区，更让 AI 能够像人类一样 " 聪明地 " 探索复杂场景——比如自动环绕建筑物拍摄细节，或沿着走廊漫游捕捉完整结构。

在 3D 世界扩展阶段，最大的技术瓶颈是 " 多视角一致性 " ——不同轨迹生成的视频常常出现物体错位、光影矛盾等问题。HY-World 2.0 通过全局几何记忆与空间立体记忆双记忆机制，让 AI 能够 " 记住 " 整个 3D 场景的几何结构，从而生成视角连贯、细节一致的扩展场景。结合 Distribution Matching Distillation 蒸馏技术，生成速度提升 4 倍，在 Tanks-and-Temples 数据集上，点云 F1-score 达 43.16，超越 SEVA、Gen3C 等模型 30% 以上。

作为全链路的核心，HY-World 2.0 的通用 3D 重建模块支持从多图、视频中恢复点云、深度图、法向量等几何信息。该模块通过归一化位置编码解决了长期困扰行业的 " 分辨率泛化 " 问题，高分辨率下相机姿态 AUC@30 仍达 86.89，较前代产品提升 31%；通过深度 - 法线耦合监督，深度估计 AbsRel 误差降至 0.162。在效率方面，支持序列并行、混合精度与全分片数据并行，单 GPU 可处理 256 视图，4GPU 下 128 视图推理时间仅 5.6 秒，为大规模 3D 重建提供了可能。

性能逼近闭源商业产品

技术创新最终要靠数据说话，HY-World 2.0 在多项核心指标上实现了对开源模型的全面超越，更在部分场景逼近闭源商业模型 Marble。在相同全景输入下，HY-World 2.0 生成的 3D 场景与输入一致性达 94%，而 Marble 仅为 88%，几何误差降低 25%；在复杂场景如城市建筑、自然景观中，HY-World 2.0 的纹理、光影还原度更接近真实世界，细节表现力远超竞品。

端到端生成速度方面，HY-World 2.0 仅需约 12 分钟 / 场景（712 秒），远快于 Marble 的 15 分钟 / 场景和开源竞品平均 30 分钟 / 场景的速度，效率提升 50% 以上。更值得关注的是，HY-World 2.0 是全球首个开源的多模态 3D 世界模型，全部模型权重、代码与技术细节已对外开放，这意味着开发者无需依赖昂贵的商业模型，就能快速构建 3D 生成应用，极大降低了 AGI 空间智能的开发门槛。

开源开放的模式也让 HY-World 2.0 具备了更强的生态活力，开发者可以基于该模型进行二次开发，推动 3D 生成技术在更多场景的应用。目前，已有多家游戏、机器人、数字孪生领域的企业与腾讯混元团队展开合作，探索 HY-World 2.0 的商业化落地。

技术的价值最终要体现在应用场景中，HY-World 2.0 还配套了 WorldLens 高性能 3DGS 渲染平台，支持实时物理反馈和空间交互，为下游应用提供高效的渲染支持。

在游戏开发领域，HY-World 2.0 支持实时可交互 3D 场景生成，内置物理碰撞检测与角色控制，可直接导入 Unity/Unreal 引擎，显著缩短开发周期。一款开放世界游戏的场景建模，传统方法需要数月时间，而使用 HY-World 2.0，开发者只需输入一段文本描述，就能在约 12 分钟内生成可交互的 3D 场景。

在机器人领域，HY-World 2.0 通过重建真实环境生成高精度仿真场景，支持机器人路径规划与视觉导航训练，提升机器人研发效率与仿真精度。目前，已有多家机器人企业基于 HY-World 2.0 构建了仿真训练平台，优化机器人导航算法开发流程。

在数字孪生领域，HY-World 2.0 可快速生成工厂、园区、城市等场景的 3D 数字孪生模型，支持多视角漫游与设备状态可视化，优化运维流程。一个大型工厂的数字孪生建模，传统方法需要投入大量人力物力，而使用 HY-World 2.0，只需导入工厂的航拍视频，就能在数小时内生成高精度的 3D 数字孪生模型。（本文首发钛媒体 APP，作者 | 硅谷 Tech_news，编辑 | 秦聪慧）

宙世代

一起剪

相关标签