一句话，AI 直接给我建了个能跑能跳的「吉卜力」3D小镇

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7，世界模型成了另一块角力的阵地。

短短几天内，AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0，紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0（HY-World 2.0）。

▲腾讯混元 3D 世界模型 2.0 体验地址：https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄，新成立的 ATH 旗下创新事业部团队，刚刚才官宣了 HappyHorse，立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图：https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0，没有发布会和新闻稿，旗下的空间智能实验室直接甩出一篇论文，「可探索的生成式 3D 世界。」

▲英伟达研究博客：https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉，那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段，大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙，资本市场也给出了强烈的回应。

今天，群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市，标志着「世界模型第一股」的正式诞生，也向外界释放了一个明确信号：世界模型，真的开始火了。

而在热闹之余，我们也发现虽然这些公司都叫世界模型，但是路线完全不同，只能生成视频的像是一个 Demo 产品；能生成 3D 资产的看似可以融入开发设计的工作流；还有在论文里的未来工作畅想，希望用于机器人的训练。

目前，腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波，试图从中找到一个答案：这些被认为是 AI 下一阶段的世界模型，到底能解决真实世界的哪些问题？

从看电影到开始游戏

此前我们聊世界模型，大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0，最直接的冲击力在于，它生成的不再是 MP4，而是真正的 3D 资产文件。

在体验中，我用简单的提示词输入了「吉卜力风格的山间小镇，黄昏」。在几分钟的计算后，出现在屏幕上的画面像是一个大世界游戏。

点击下载，混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件，以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh（三角面片网格）、3DGS（3D 高斯泼溅）、点云等多种格式的 3D 资产文件，这些文件可以直接导入 Unity、Unreal Engine，游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片，原图约 20MB。

在世界生成任务上，除了常见的文生世界，混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图，Rocky 最后在波江座人给他搭建的世界里漫步，让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边，所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时，混元 3D 世界模型 2.0 生成的雪景，画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词，应用内都有相关的指引，例如上传的图片分辨率不能小于 512*512，避免画面出现人物，不要有动物 / 人物特写，避免使用纯色、纯纹理图片；以及天空、星空等画面占比较大图片也不适合等。

而文本提示词，最好是场景类别（沙漠、海面、房间等）+ 场景特征（物体、天空等视觉描述）+ 风格（可选，卡通 / 写实 / 油画风格等）。

混元 3D 世界模型 2.0 的风格化控制表现也很好，从官网已有的世界案例能看到，无论是温馨的绘本风还是写实的游戏风，它对语义的解析非常精准；墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产，混元 2.0 真正让我感到「世界」属性的，是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索，整个过程就像是在玩一个大世界游戏。同时，它自带物理碰撞，角色不会穿墙而过，也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验，确实在模糊了 AI 生成与游戏引擎之间的边界，随着能生成世界的范围不断扩大，角色的探索或许会更有意思。

实时生世界时，我们能直接控制角色的行动，混元 3D 模型会自动生成对应的世界，单次生成的时长是一分钟。

对比之前的混元 3D 模型，这次的 2.0 版本在一句话 / 一张图生世界任务上，不仅支持下载 3D 资产文件，推出了全新的角色模式，而且在画面精细度和真实感方面，也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构｜https://3d-models.hunyuan.tencent.com/world/

新的模型架构，打通了「理解、生成、重建」的闭环。

HY-Pano-2.0：不需要专业的相机参数，普通图片就能映射出 360 ° 全景。

空间 Agent 技术：像给 AI 装上了导航，它能智能规划漫游轨迹，确保护理和视觉上的衔接不会穿帮。

HY-WorldMirror 2.0：保证了即使是在大幅度的视角变换下，物体侧面和背面的完整度依然在线。

在世界重建任务上，混元世界模型 2.0 输入多张图或视频流，就能做到重建真实场景。

在过去，我们想要构建 / 重建一个可互动的 3D 世界，需要成体系的团队和数月的打磨；而现在，通过混元 2.0 这样的工具，只需要一个创意。

并且，这个创意，无论是以文字、图片还是视频的形式呈现，它都可以生成一个拖进 Unity 的原型，哪怕质量还需要调整，哪怕很多细节还要人工修改，但整个设计的工作流，AI 也开始在发力了。

疯狂的世界模型周，疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建，拉回本周连发的其他几个世界模型，我们会发现，这些不同在不同维度突围的世界模型，正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式，让我们用自然语言随时介入世界演化，改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境，它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」，前面那些模型都在解决怎么造世界，而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术，把上亿个 3DGS 粒子的超大世界，硬生生塞进了普通手机的网页浏览器里。

▲ World Lab 生成界面，提示词：吉卜力风格的山间小镇，黄昏

看着这些各显神通的世界模型界面，一个现实的结论是：很明显，世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备，画面质量、交互能力、资产格式、交付方式、仿真精度，每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品，还没有模型做到。

在过去两年里，随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计，前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在，这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场，3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时，生成并体验一个 3D 互动世界，将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟，在所有的科幻叙事里，没有任何人会抗拒自己成为「造物主」，去自定义一个新世界。

宙世代

一起剪

相关标签