腾讯混元发布并全面开源国内首个开放体验的实时世界模型1.5，囊括三大核心能力

" 可应用于游戏、影视、具身智能等多个场景中。"

作者：苏打

编辑：tuya

出品：财经涂鸦（ID：caijingtuya）

公司情报专家《财经涂鸦》获悉，12 月 17 日，腾讯混元发布世界模型 1.5（Tencent HY WorldPlay ) ，成为国内首个开放体验的实时世界模型。

据悉，混元世界模型 1.5 具备三大核心能力，包括实时的交互生成、长范围的 3D 一致性以及多样化的交互体验，目前腾讯混元 3D 官网已开放申请使用。

使用方面，用户输入文字描述或者图片即可创建专属的互动世界，通过键盘、鼠标或手柄实时控制虚拟相机的移动和转向，即可像玩游戏一样自由探索 AI 生成的世界。

腾讯方面表示，该模型将带来世界建模的全新可能性。用户可以在生成的世界里随意移动探索，离开某个区域后再次返回时，模型能够 " 记住 " 该区域的三维结构，呈现前后一致的场景——这种空间记忆能力标志着模型在三维世界理解上的突破。

同时，混元世界模型 1.5（WorldPlay）还首次开源了业界最系统、最全面的实时世界模型框架，涵盖数据、训练、流式推理部署等全链路、全环节。

混元团队在技术报告中公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏的训练细节，并详述模型在控制（control space），记忆（reconstituted memory），蒸馏（context forcing），强化学习后训练几大模块上的思考与原创设计。

据悉，WorldPlay 这一自回归扩散模型是混元世界模型 1.5 的核心。其采用 Next-Frames-Prediction 的视觉自回归任务进行训练，实现了长范围几何一致性的实时交互式世界建模，破解了业界满足实时性与几何一致性的难题。

该模型依托三大核心，实现了诸多创新，包括双分支动作表征实现精准控制、上下文记忆重构机制保持几何一致性、上下文对齐蒸馏技术增强长视频生成的视觉质量和几何一致性。

此外，该工作也构建了一套新颖的基于 3D 奖励的强化学习后训练框架来进一步增强生成视频的视觉质量和几何一致性。

数据方面，混元团队构建的自动化 3D 场景渲染流程，可以获得大量高质量的真实世界渲染数据，进一步激发核心算法的潜力。同时，混元世界模型 1.5 可支持 24 帧 / 秒的长时流式生成，一致性与泛化能力适用于多样化场景。

这一全新的内容生成模式可以应用在多个场景中。

例如，在 AI 游戏开发领域，它可以作为智能关卡生成器，根据玩家的文本描述实时创建可探索的游戏世界；在影视制作和虚拟现实（VR）领域，创作者通过简单的文本指令，就可以快速预览和迭代场景设计；在具身智能（Embodied AI）研究领域，混元世界模型 1.5 提供了一个理想的训练和测试平台，研究者可以通过借助这个平台，以更高的效率、更大的规模，去探索具身智能体的感知、决策、规划和长期交互能力。

本文由公众号财经涂鸦（ID：caijingtuya）原创撰写，如需转载请联系涂鸦君。

添加涂鸦君个人微信（ID：tuyaclub）

加入【公司情报社群】

参与资本市场讨论

获取一手情报

宙世代

一起剪

相关标签