群核科技IPO叩问：谁能做出“真正的世界模型”？

最近，杭州六小龙群核科技正在冲刺港股 IPO，这家公司有个有意思的地方是它跟李飞飞在做同样的事情：空间智能。但到底什么是空间智能，其实国内还没人完整解释过这个概念。

要回答这个问题，我们需要回到一个更底层的概念——世界模型。当 AI 从二维走向三维，从 " 看懂 " 走向 " 行动 "，世界模型就成为连接数字与物理世界的关键。但什么样的模型才配得上 " 世界 " 二字？如果按李飞飞的定义——它必须能生成遵守物理定律的空间、能处理多模态输入、能预测世界随时间的变化——那么当前大多数标榜 " 世界模型 " 的系统，其实仍在二维的延长线上徘徊。

真正在三维空间维度构建世界的玩家，全球范围内屈指可数：李飞飞的 World Labs 是其中之一，杭州的群核科技是另一个。而群核的特殊之处在于，它不仅是 " 构建者 "，更是 " 可落地的构建者 "。

一、世界模型的本质：三维，而非二维的延伸

当前主流的技术路线可以分为两类。

一类是以 Sora、Genie 3 为代表的 " 视频生成派 "。它们通过海量视频数据训练，能够生成极为逼真的动态画面。但这类模型的本质仍是 2D 像素序列的预测——它学会了让上一帧在视觉上像下一帧，却不理解墙的厚度、光的反射、物体的重力。这就导致一个根本性缺陷：生成的视频可能在几秒钟内惊艳夺目，但一旦视角切换，就会出现物体 " 瞬移 "、场景 " 穿帮 " 的问题。原因很简单：它从未真正构建过三维空间。

另一类是以 World Labs、混元为代表的 "3D 场景生成派 "。它们尝试直接生成可漫游的三维空间，从方法论上更接近 " 世界模型 " 的本质。李飞飞团队发布的 Marble 平台，支持用户从一张照片或短视频 " 提升 " 为可探索的 3D 世界。但这类路线面临一个共同的瓶颈：高质量 3D 数据的匮乏。如果每一个角度都需要生成合理的内容，数据缺口就会暴露，时常出现 " 离开固定视角就崩坏 " 的情况。

那么，还有第三条路吗？

二、群核的技术路径：结构化理解 + 空间一致性生成

群核科技的选择，是从源头上构建 " 物理正确 " 的三维世界。这个路径建立在两个核心能力之上：空间语言理解和多视角一致生成。

首先是 " 空间语言 " 能力。 今年 8 月，群核开源了空间语言模型 SpatialLM 1.5。与传统多模态模型不同，SpatialLM 输出的不是自然语言描述，而是包含墙线坐标、物体尺寸、物理参数的结构化 " 空间代码 "。给它一张图，它输出的不是 " 这是一张客厅 "，而是一个完整的 3D 信息：沙发长 2.2 米、距墙 50 厘米、承重 300 公斤，茶几的材质、门的开合方向——这些正是 AI 理解物理世界所需要的 " 空间语法 "。

这种能力的价值在于：它生成的场景不仅是 " 看起来像 "，而且是 " 可计算、可编辑、可交互 " 的。对于机器人训练而言，这至关重要——机器人需要的不是一张漂亮的客厅图片，而是知道哪里是墙、哪里是门、茶几能不能推动。

其次是 " 空间一致性 " 生成能力。 群核开源的另一个模型 SpatialGen，走的是 " 多视角扩散 +3D 高斯重建 " 的技术路线。它不是直接生成视频，而是先生成一个真实的 3D 空间，再在这个空间内 " 拍摄 " 视频。这就像在虚拟世界架设了一台摄像机——因为世界本身是三维的，无论镜头如何切换，物体的位置、光影的投射始终保持一致。

现场演示显示，基于 SpatialGen 生成的 12 秒漫游视频，第 1 秒与第 12 秒的窗户、摆件位置完全吻合。这解决了困扰 AI 视频领域许久的 " 视角切换就穿帮 " 的痛点。

三、可落地的关键：结构化带来的可编辑性

如果说 World Labs 的 Marble 展示了 3D 生成的想象力，那么群核的差异化优势在于 " 可落地 " ——这来自于结构化能力带来的可编辑性。

在很多 3D 生成模型中，输出是一个 " 黑箱 " 场景：你不能拆解它，不能修改墙的位置，不能调整家具的材质。但群核生成的场景基于其矩阵引擎，用户可以直接调整参数：把墙体厚度从 24 厘米改为 18 厘米，把卧室门从东墙移到南墙，场景会自动适配这些变化。

这种可编辑性在产业应用中至关重要。影视制作需要反复调整场景布局，工业设计需要精确修改产品参数，机器人训练需要批量生成不同布局的环境——这些场景都要求模型输出的是 " 可操作的资产 "，而非 " 不可变的快照 "。

华策影视与群核的合作，正是看中了这一点：在虚拟片场中，导演需要随时调整场景、切换视角，只有可编辑的 3D 世界才能支撑这种创作自由度。

四、为什么是群核？数据飞轮的壁垒

技术路径的选择背后，是资源禀赋的差异。群核之所以能走通这条路，源于一个独特的 " 工具 - 数据 - 模型 " 飞轮。

酷家乐作为全球最大的空间设计平台，积累了超过 4.79 亿个 3D 模型及 5 亿个结构化 3D 空间场景。这些数据的特殊性在于：它们不是从互联网抓取的碎片化资产，而是由专业设计师创建的、物理正确的、可计算的空间数据。每一张设计图，都在生成结构化的 3D 信息。

基于这些数据，群核 2018 年就开源了全球最大的室内空间数据集 InteriorNet，今年又开源了 3D 高斯语义数据集 InteriorGS。数据沉淀加速模型迭代，模型升级提升工具体验，工具优化带来更丰富的数据——这个闭环一旦形成，就构成了难以复制的竞争壁垒。

五、估值视角：技术底座如何打开想象空间

回到 IPO 语境，这套技术能力如何支撑群核的估值？

首先，它决定了群核的技术壁垒高度。在空间智能这个新兴赛道，真正能做 " 物理正确世界模型 " 的玩家极少。群核基于结构化数据的生成能力，与市面上绝大多数 " 视觉系 " 模型形成代差，这构成了其稀缺性。

其次，它打开了业务边界。可落地的技术意味着可以进入更多产业场景——从影视虚拟制作到工业孪生，从具身智能训练到电商 3D 营销。每一个场景都可能发展成独立的大市场，而群核的底层能力是通用的。

最后，它指向了平台型公司的可能性。如果群核能够将自己的空间智能能力通过 Aholo 平台开放给更多开发者，它就有可能从 " 工具提供商 " 升级为 " 空间智能基础设施 "。届时，市场给它的估值锚将不再是垂直 SaaS，而是 AI 平台。

当然，技术领先不等于商业成功。但至少从技术维度看，群核在空间智能这场竞赛中占据了一个独特的生态位：既有构建三维世界的能力，又有让世界可落地的结构化工具。这个生态位一旦确立，其估值逻辑将不再局限于 SaaS，而会向更广阔的智能底座方向演进。

宙世代

一起剪

相关标签