字节也入局了，世界模型到底是一门怎样的生意？

文 | 字母 AI

这两天，世界模型这个概念非常火爆。

腾讯、阿里相继入局之后，现在好了，字节也算是 " 半入局 " 了。

字节正式发布了 Seed3D 2.0，这是 3D 生成模型，你给它文字、图片、多视角图，甚至视频，它帮你生成 3D 模型。

Seed3D 2.0 的第一个优势，是它把几何精度往生产级推了一步。

过去的 3D 生成，最大问题不是不够惊艳，是不够可靠。边缘发软、薄壁结构断裂、材质只在单一光照下好看，放进游戏引擎、仿真系统或机器人训练环境里，很快露馅。

Seed3D 2.0 用两阶段 DiT 先搭整体结构，再补高精度细节，让锐边、曲面、复杂拓扑和薄结构更稳定。

第二个优势在材质。

别的模型追求的是 RGB 贴图，以达到视觉效果相似。但 Seed3D 2.0 追求的是统一生成 PBR 材质，让金属、粗糙度、反光边界在不同光照下保持物理一致。

这意味着生成结果不只是截图好看，而是更接近可进入真实渲染管线的资产。

更关键的是，Seed3D 2.0 它现在不光是能生成 3D 物体，它还在生成的同时考虑这样一个问题 " 我生成的物体能不能放进接下来的场景，比如游戏建模、训练机器人这些 "。

所以它支持部件级拆分、关节建模、URDF 输出，也能做场景组合和空间布局推理。

一个椅子不只是一个整体模型，而可以被拆成座面、靠背和底座。一个物体不只是摆在那里，而可以进入仿真、交互和运动系统。

所以它的真正优点，其实是把 3D 生成从内容生产工具，往具身智能、工业仿真和游戏资产基础设施推进了一步。

因此，虽然字节并没有大大方方承认 Seed3D 2.0 是世界模型，但从某种意义上来说，它算是半个世界模型。

关键点在于，Seed3D 2.0 能理解物体的空间结构、部件关系和可操作性，这就是世界模型的特点。

不过 Seed3D 2.0 不能持续预测世界演化，也不理解力、碰撞、摩擦、破坏、流体等物理过程，这就是为啥它只算是半个。

01 世界模型大战

关于世界模型这件事，得先从李飞飞开始讲起。

4 月 14 日，李飞飞的世界模型公司 World Labs 发布了 Spark 2.0，它是一个 Web 端的 3D 高斯溅射渲染引擎。

这个东西的作用是什么？就是让你即使是用手机的浏览器，也能流畅地打开那些包含上亿个粒子的 3D 世界。

过去做 3D 场景，要么用传统的三角网格，文件巨大、加载慢；要么就是视频，看完就没了。

3D 高斯溅射是个新路子，用数百万个半透明的椭球体来表示场景，渲染效果接近照片级，但问题是数据量太大。一个稍微复杂点的场景就能有几千万个 splats，普通设备根本跑不动。

Spark 2.0 的核心突破在三个地方。

第一是 LoD 系统，也就是细节层次技术。它会预先生成不同分辨率的数据，你离得近就显示高精度，离得远就自动降低细节。

第二是渐进式流式传输，场景不是一次性加载，而是边走边下载，就像看流媒体视频一样。

第三是虚拟内存管理，在 GPU 里划出一块固定的内存池，最多容纳 1600 万个 splats，然后不断地把需要的数据块换进换出。

这套技术最早是 World Labs 为自己的产品 Marble 开发的。

Marble 是个 AI 生成 3D 世界的工具，能根据文字或图片生成可以进入的 3D 场景。Spark 2.0 解决的就是 " 最后一公里 " 的问题，它让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。

几乎在同一时间，英伟达发布了 Lyra 2.0。

Lyra 2.0 和李飞飞的 World Labs 虽说都是世界模型，不过前者想要解决的是长距离、大范围 3D 世界生成的一致性问题。

现有的视频生成模型有两个致命缺陷。

第一个叫 " 空间遗忘 "，就是镜头走远了再回来，模型已经忘记之前那个地方长什么样，只能重新编一个，结果前后对不上。

第二个叫 " 时间漂移 "，自回归生成的过程中，微小的误差会不断累积，生成几百帧之后，颜色、结构都开始变形。

Lyra 2.0 的解决方案是维护一个空间记忆系统。

每生成一帧，就把它的 3D 几何信息存下来。下次要生成新视角时，先从记忆里检索出相关的历史帧，建立 3D 对应关系，然后再让生成模型补充细节。这样既保证了空间一致性，又能利用生成模型的想象力。

更关键的是，Lyra 2.0 还用了一个叫 " 自增强历史训练 " 的技巧。

传统训练用的都是干净的真实数据，但实际使用时，模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0 在训练时故意喂给模型一些带有退化的历史帧，教它学会纠正漂移，而不是放大错误。

不过，英伟达做这个不是为了让你生成视频，Lyra 2.0 的使用场景是机器人和自动驾驶。

真实世界的训练数据太贵、太危险，很多极端场景根本采集不到。如果能用 AI 生成足够真实、足够一致的虚拟环境，就可以在里面反复训练、测试，然后再部署到现实中。Lyra 2.0 生成的世界可以直接导出为 3DGS 或 mesh，接入 Isaac Sim 这样的仿真平台。

就在李飞飞发布 Spark 2.0 的第二天，腾讯正式发布并开源了 HY-World 2.0。

腾讯的路线和前两家都不一样，它要做的是真正的 3D 资产生成。

什么叫 3D 资产？就是那些可以导入 Blender、Unity、Unreal Engine 的 mesh 文件和 3DGS 文件，可以被编辑、被复用、被二次开发的东西。

HY-World 2.0 的工作流程分四步。

第一步是全景图生成，用 HY-Pano 2.0 模型把文字或单张图片扩展成 360 度全景。第二步是轨迹规划，用 WorldNav 算法分析全景图的几何和语义信息，自动规划出合理的相机运动路径。第三步是世界扩展，沿着规划好的轨迹，用 WorldStereo 2.0 模型生成多个关键帧视角，这些视角之间要保持空间一致性。第四步是世界组合，用 WorldMirror 2.0 把所有关键帧整合成统一的 3DGS 场景，再优化转换成高质量 mesh。

这套流程里最难的是 WorldStereo 2.0。

它要做的是新视角生成，也就是给定一个起始视角和相机运动参数，生成目标视角的画面。难点在于既要精确跟随相机控制，又要保持视觉细节，还要和之前生成的区域在几何上完美衔接。

腾讯的解决方案是引入记忆机制，让模型记住已经生成的区域的几何和外观特征，生成新区域时参考这些记忆，避免出现 " 穿帮 "。

腾讯做这个的目的很明确，就是服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光多个环节，一个高质量场景可能要几个人做几周。如果能用 AI 直接生成可编辑的 3D 资产，整个生产流程就被重构了。而且腾讯强调的是 " 可编辑 "，生成出来的不是一段视频，而是可以在引擎里继续调整、继续开发的真实资产。

就在腾讯发布的几个小时后，阿里也扔出了自己的世界模型产品 Happy Oyster。

现在好了，4 家完全都是不同的，阿里想做的是实时交互的世界生成。

Happy Oyster 有两个核心模式。第一个叫 Wandering，漫游模式。你给它一句话或一张图，它就生成一个具备物理一致性的完整空间，然后你可以用第一人称视角在里面自由移动，用 WASD 键控制方向，用鼠标控制镜头。场景会随着你的移动不断延展，物体位置稳定，光照跟随视角变化。目前支持最长 1 分钟的连续实时控制。

第二个模式叫 Directing，导演模式。这个更有意思，它不是生成完就结束，而是让你在生成过程中持续介入。视频播放到任意时刻，你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应，场景随之变化，然后继续往下演化。

阿里把 Happy Oyster 定位为 " 世界模拟器 "。

传统的文生视频是输入 prompt、等待渲染、得到成片，这是被动的。世界模拟器是主动的，它在持续地模拟世界的演化，用户可以随时介入、随时改变。这种交互方式更接近游戏，而不是看电影。

不过 Happy Oyster 的输出是音视频流，不是 3D 资产。它的优势在于互动体验和生成速度，而不是可以导出到游戏引擎。这也反映了阿里的产品思路，它瞄准的是内容创作、互动娱乐、虚拟直播这些场景，而不是游戏开发的底层工具链。

这个时间窗口里，国内还有两家公司值得一提。

群核科技在 2025 年发布了空间生成模型 SpatialGen 和 Aholo 空间智能开放平台，瞄准的是室内设计和具身智能场景。极佳视界的 GigaWorld-1 在 3 月底的 WorldArena 评测中拿下全球第一，这是一个专门面向机器人训练的具身世界模型。

02 为什么都在这个时间点发

这不是简单的撞车。这几家公司，无论是产品成熟度、技术路线、目标场景，那真是能都不一样的地方全都不一样，所以不可能碰巧在同一时间准备好。

更合理的解释是，大家都在等一个信号，而李飞飞的 Spark 2.0 就是那个发令枪。

过去两年，AI 圈的主旋律是大语言模型。

从 GPT-4 到 Claude，从 Gemini 到 DeepSeek，模型越来越大，上下文越来越长，推理能力越来越强。

但到了 2026 年初，这条路开始有点难走了。各家的差距在快速缩小。继续讲 " 我的模型比你强 5%" 已经很难激起市场兴趣。

agent 是去年的热点，但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的 AI 助手，技术框架大同小异，真正的差异化越来越难。

市场需要一个新故事，一个足够大、足够性感、能够承载下一轮想象空间的新叙事。

世界模型就是这个新故事，听起来比视频生成更接近 AGI。

更重要的是，世界模型是个足够宽泛的概念，可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。

从技术层面看，世界模型的时机也确实到了。

过去两年，几条关键技术线开始汇合。

视频扩散模型提供了生成高质量动态画面的能力，3D 高斯溅射提供了高效的 3D 表示方法，NeRF 和三维重建技术提供了从 2D 到 3D 的转换路径，实时渲染技术提供了在消费级设备上打开大规模场景的可能，多模态理解让 AI 能够同时处理文字、图像、视频输入，物理仿真平台提供了训练和验证的环境。

这些技术单独看都不是新东西，但它们现在 " 熟了 "。

视频模型的质量已经足够好，3DGS 的渲染速度已经足够快，多模态模型的理解能力已经足够强。

当这些技术组合在一起，世界模型从概念变成了可以落地的产品。

事实上，李飞飞早在 2025 年 6 月 16 日旧金山的 YC AI Startup School 炉边谈话里，就已经把这条技术线索讲得很清楚。

她回顾了自己从 ImageNet 一路走来的历程，说最早推动数据驱动视觉方法时，很多人还不相信大规模数据会改变 AI；2012 年卷积神经网络的爆发让她第一次强烈意识到，视觉模型不会停留在分类和识别，而是会继续走向图像描述、视觉叙事，最后一路走到生成模型。

按这个脉络看，今天的世界模型不是突然冒出来的新概念，而是计算机视觉沿着 " 理解世界 " 这条主线自然演化到更高维度的结果。

更关键的是，她当时强调的核心词不是视频生成，也不是 3D 内容生产，而是空间智能。

她的判断很直接，如果 AI 想真正接近 AGI，就不能只在语言里做概率预测，也不能只对二维像素做模式匹配，它必须理解三维空间、几何结构、物体关系和物理规律，知道世界是怎么被组织起来、又会如何随着时间变化。

这也是为什么空间智能看起来像下一个前沿，或者我换一种方式来表达：世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。

从这个角度再看最近这一波世界模型热潮，很多事情就更容易理解了。

大家争的表面上是渲染、生成、交互和资产化，底层争的其实都是谁更接近 " 让机器理解真实世界 " 这件事

。语言当然重要，但语言本质上是人类压缩过的符号系统。

三维世界却是连续的、动态的，充满遮挡、视角变化和物理约束。建模语言已经很难，建模空间往往更难。所以李飞飞当时那句话的分量很重，空间智能不是一个新标签，它是 AI 真正走向现实的物理世界之前必须补上的一课。

但光有技术还不够，还需要有人来定义标准。

谁先发布，谁就有机会影响行业对 " 世界模型 " 这个词的理解。李飞飞的 World Labs 在学术界和产业界都有巨大影响力，她发布 Spark 2.0，等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进，就会在这个新叙事里失去话语权。

所以腾讯、阿里、英伟达、字节都在最近发产品。不是因为产品刚好做完，而是因为这个时间窗口太关键了。

晚一周发布，市场的注意力可能就被其他热点带走了；早一周发布，又没有李飞飞这个 " 发令枪 " 来引爆话题。

同时，大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念，到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链，这些都还没有定论。

谁先占据某个关键位置，谁就有机会把自己的标准变成行业标准。

World Labs 抢的是 Web 分发入口。如果未来所有的 3D 世界都通过 Spark 这样的渲染器在浏览器里打开，那 World Labs 就掌握了分发渠道。

腾讯抢的是 3D 资产生产入口，如果游戏公司都用 HY-World 2.0 来生成场景原型，那腾讯就掌握了内容生产工具。

阿里抢的是实时交互入口，如果互动内容都用 Happy Oyster 这样的世界模拟器来制作，那阿里就掌握了新的内容形态。

字节抢的是 3D 造物入口，如果未来游戏、机器人、工业仿真里的物体模型，都通过 Seed3D 2.0 从文字、图片或视频直接生成，并且自带几何、PBR 材质、部件拆分和关节结构，那字节就掌握了现实物体进入数字世界的第一道入口。

英伟达抢的是仿真训练入口，如果机器人公司都用 Lyra 2.0 生成的环境来训练模型，那英伟达就掌握了物理 AI 的基础设施。

所以本质上，是大家在通过不同的产品，抢占世界模型生态里的不同层级。

谁定义了世界的生成格式，谁定义了世界的渲染方式，谁定义了世界的交互范式，谁定义了世界进入仿真的路径，谁就可能成为下一代空间 AI 平台。

03 世界模型对企业的意义

还有一点，那就是世界模型不是一个孤立的技术，要把它放在企业实际的生产上，才能看清楚这个技术到底是用来干嘛的。

对 World Labs 来说，世界模型是一个完整的产品闭环。Marble 负责生成 3D 世界，Spark 负责渲染和分发。李飞飞的野心不是做一个工具，而是做一个平台。

未来如果有人想分享一个 3D 场景，不是发一个几个 GB 的文件让你下载，而是发一个链接，你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频，你并不是真的把视频下载下来，你只需要把那个二维码发给你的小伙伴，他就能扫码直达视频原始网页。

这个商业模式的关键在于降低门槛。

传统的 3D 内容创作需要专业软件、高性能硬件、复杂的技术知识。

Marble 把创作门槛降到了 " 输入一句话 "，Spark 又把观看门槛降到了 " 点开一个链接 "。当创作和消费的门槛都足够低，3D 内容才可能像图片和视频一样成为互联网的基础设施。

对腾讯来说，世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司，它的核心资产是游戏 IP 和内容生产能力。HY-World 2.0 瞄准的就是内容生产环节。

传统游戏开发，一个高质量的 3A 游戏场景动辄就需要几十个美术人员做几个月。

即使是那种小规模的独立游戏，场景制作也是最耗时的环节之一。如果 AI 能生成可编辑的 3D 资产，美术团队就可以从重复性的建模工作中解放出来，把精力放在创意设计和细节打磨上。

更重要的是，HY-World 2.0 生成的是真正的 3D 资产，不是视频。视频只能看，资产可以用。你可以在 Unity 里调整光照，可以在 Blender 里修改模型，可以在 Unreal 里添加物理效果。

这种可编辑性是腾讯强调的核心价值，因为游戏开发需要的不是成品，而是可以继续加工的半成品。

对阿里来说，世界模型是内容形态的创新。阿里这几年在内容领域投入很大，从优酷到大麦，从直播到短视频，一直在寻找新的内容载体。Happy Oyster 代表的是一种新的内容形态，介于视频和游戏之间。

传统视频是线性的，你只能从头看到尾。游戏是开放的，但制作成本高、门槛高。Happy Oyster 想做的是 " 可交互的视频 " 或者 " 低门槛的游戏 "。用户不需要学习复杂的操作，只需要用自然语言说出自己的想法，场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训这些场景。

阿里的商业逻辑是流量和变现。如果 Happy Oyster 能够创造出一种新的内容消费方式，就可能带来新的流量入口和变现模式。比如虚拟直播间，主播可以实时改变场景、召唤道具、创造剧情，观众的参与感会比传统直播强得多。再比如品牌营销，用户可以在虚拟世界里探索产品、体验场景，这种沉浸式的互动比传统广告更有吸引力。

开头我就提到了，Seed3D 2.0 生成的是带几何结构、PBR 材质、部件拆分、关节关系的 3D 资产。换句话说，它生成的是 " 可以继续编辑、渲染、放进引擎、甚至接入仿真的东西 "。

这对字节尤其重要。字节的优势一直是内容分发和创作者生态，他们的所有产品，都是在降低内容生产门槛。用剪映降低视频剪辑门槛、用抖音降低视频分发的门槛，再用 Seedance 降低视频生成的门槛。

Seed3D 2.0 降低的是 3D 资产生产的门槛。

未来如果短视频创作者想做一个 3D 商品展示，不需要找建模师。电商商家想把商品变成可旋转、可互动的模型，不需要重做一套 3D 流程。游戏团队想快速生成道具原型，也可以直接从图片或视频开始。

所以，对字节来说，Seed3D 2.0 的战略价值不是 " 我也有一个世界模型 "，而是当内容互联网从二维视频走向三维空间，字节要继续掌握最低门槛、最高频的内容生产入口。

世界模型最终的竞争不会停留在模型能力上，而是会延伸到生态层面。

谁的输出格式被更多工具支持，谁的渲染器被更多开发者使用，谁的 API 被更多应用接入，谁能和 Unity、Unreal、Isaac、浏览器这些关键平台深度整合，谁就有机会成为这个领域的标准制定者。

宙世代

一起剪

相关标签