商业资讯 3小时前
群核科技IPO叩问:谁能做出“真正的世界模型”?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

最近,杭州六小龙群核科技正在冲刺港股 IPO,这家公司有个有意思的地方是它跟李飞飞在做同样的事情:空间智能。但到底什么是空间智能,其实国内还没人完整解释过这个概念。

要回答这个问题,我们需要回到一个更底层的概念——世界模型。当 AI 从二维走向三维,从 " 看懂 " 走向 " 行动 ",世界模型就成为连接数字与物理世界的关键。但什么样的模型才配得上 " 世界 " 二字?如果按李飞飞的定义——它必须能生成遵守物理定律的空间、能处理多模态输入、能预测世界随时间的变化——那么当前大多数标榜 " 世界模型 " 的系统,其实仍在二维的延长线上徘徊。

真正在三维空间维度构建世界的玩家,全球范围内屈指可数:李飞飞的 World Labs 是其中之一,杭州的群核科技是另一个。而群核的特殊之处在于,它不仅是 " 构建者 ",更是 " 可落地的构建者 "。

一、世界模型的本质:三维,而非二维的延伸

当前主流的技术路线可以分为两类。

一类是以 Sora、Genie 3 为代表的 " 视频生成派 "。它们通过海量视频数据训练,能够生成极为逼真的动态画面。但这类模型的本质仍是 2D 像素序列的预测——它学会了让上一帧在视觉上像下一帧,却不理解墙的厚度、光的反射、物体的重力。这就导致一个根本性缺陷:生成的视频可能在几秒钟内惊艳夺目,但一旦视角切换,就会出现物体 " 瞬移 "、场景 " 穿帮 " 的问题。原因很简单:它从未真正构建过三维空间。

另一类是以 World Labs、混元为代表的 "3D 场景生成派 "。它们尝试直接生成可漫游的三维空间,从方法论上更接近 " 世界模型 " 的本质。李飞飞团队发布的 Marble 平台,支持用户从一张照片或短视频 " 提升 " 为可探索的 3D 世界。但这类路线面临一个共同的瓶颈:高质量 3D 数据的匮乏。如果每一个角度都需要生成合理的内容,数据缺口就会暴露,时常出现 " 离开固定视角就崩坏 " 的情况。

那么,还有第三条路吗?

二、群核的技术路径:结构化理解 + 空间一致性生成

群核科技的选择,是从源头上构建 " 物理正确 " 的三维世界。这个路径建立在两个核心能力之上:空间语言理解多视角一致生成

首先是 " 空间语言 " 能力。 今年 8 月,群核开源了空间语言模型 SpatialLM 1.5。与传统多模态模型不同,SpatialLM 输出的不是自然语言描述,而是包含墙线坐标、物体尺寸、物理参数的结构化 " 空间代码 "。给它一张图,它输出的不是 " 这是一张客厅 ",而是一个完整的 3D 信息:沙发长 2.2 米、距墙 50 厘米、承重 300 公斤,茶几的材质、门的开合方向——这些正是 AI 理解物理世界所需要的 " 空间语法 "。

这种能力的价值在于:它生成的场景不仅是 " 看起来像 ",而且是 " 可计算、可编辑、可交互 " 的。对于机器人训练而言,这至关重要——机器人需要的不是一张漂亮的客厅图片,而是知道哪里是墙、哪里是门、茶几能不能推动。

其次是 " 空间一致性 " 生成能力。 群核开源的另一个模型 SpatialGen,走的是 " 多视角扩散 +3D 高斯重建 " 的技术路线。它不是直接生成视频,而是先生成一个真实的 3D 空间,再在这个空间内 " 拍摄 " 视频。这就像在虚拟世界架设了一台摄像机——因为世界本身是三维的,无论镜头如何切换,物体的位置、光影的投射始终保持一致。

现场演示显示,基于 SpatialGen 生成的 12 秒漫游视频,第 1 秒与第 12 秒的窗户、摆件位置完全吻合。这解决了困扰 AI 视频领域许久的 " 视角切换就穿帮 " 的痛点。

三、可落地的关键:结构化带来的可编辑性

如果说 World Labs 的 Marble 展示了 3D 生成的想象力,那么群核的差异化优势在于 " 可落地 " ——这来自于结构化能力带来的可编辑性

在很多 3D 生成模型中,输出是一个 " 黑箱 " 场景:你不能拆解它,不能修改墙的位置,不能调整家具的材质。但群核生成的场景基于其矩阵引擎,用户可以直接调整参数:把墙体厚度从 24 厘米改为 18 厘米,把卧室门从东墙移到南墙,场景会自动适配这些变化。

这种可编辑性在产业应用中至关重要。影视制作需要反复调整场景布局,工业设计需要精确修改产品参数,机器人训练需要批量生成不同布局的环境——这些场景都要求模型输出的是 " 可操作的资产 ",而非 " 不可变的快照 "。

华策影视与群核的合作,正是看中了这一点:在虚拟片场中,导演需要随时调整场景、切换视角,只有可编辑的 3D 世界才能支撑这种创作自由度。

四、为什么是群核?数据飞轮的壁垒

技术路径的选择背后,是资源禀赋的差异。群核之所以能走通这条路,源于一个独特的 " 工具 - 数据 - 模型 " 飞轮。

酷家乐作为全球最大的空间设计平台,积累了超过 4.79 亿个 3D 模型及 5 亿个结构化 3D 空间场景。这些数据的特殊性在于:它们不是从互联网抓取的碎片化资产,而是由专业设计师创建的、物理正确的、可计算的空间数据。每一张设计图,都在生成结构化的 3D 信息。

基于这些数据,群核 2018 年就开源了全球最大的室内空间数据集 InteriorNet,今年又开源了 3D 高斯语义数据集 InteriorGS。数据沉淀加速模型迭代,模型升级提升工具体验,工具优化带来更丰富的数据——这个闭环一旦形成,就构成了难以复制的竞争壁垒。

五、估值视角:技术底座如何打开想象空间

回到 IPO 语境,这套技术能力如何支撑群核的估值?

首先,它决定了群核的技术壁垒高度。在空间智能这个新兴赛道,真正能做 " 物理正确世界模型 " 的玩家极少。群核基于结构化数据的生成能力,与市面上绝大多数 " 视觉系 " 模型形成代差,这构成了其稀缺性。

其次,它打开了业务边界。可落地的技术意味着可以进入更多产业场景——从影视虚拟制作到工业孪生,从具身智能训练到电商 3D 营销。每一个场景都可能发展成独立的大市场,而群核的底层能力是通用的。

最后,它指向了平台型公司的可能性。如果群核能够将自己的空间智能能力通过 Aholo 平台开放给更多开发者,它就有可能从 " 工具提供商 " 升级为 " 空间智能基础设施 "。届时,市场给它的估值锚将不再是垂直 SaaS,而是 AI 平台。

当然,技术领先不等于商业成功。但至少从技术维度看,群核在空间智能这场竞赛中占据了一个独特的生态位:既有构建三维世界的能力,又有让世界可落地的结构化工具。这个生态位一旦确立,其估值逻辑将不再局限于 SaaS,而会向更广阔的智能底座方向演进。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 李飞飞 ipo 杭州
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论