视频生成告别“瞬移变形”，群核科技Hugging Face登顶背后：空间语言改写AI物理世界规则

AIGC 技术正从文本、图像生成向更复杂的 3D 空间与视频领域延伸，但现有模型普遍面临两大核心挑战：一是对物理世界空间结构的理解不足，导致 3D 场景生成缺乏逻辑性；二是视频创作中因视角切换引发的时空一致性问题。

" 何时人工智能从数字世界走向物理世界呢？我们认为空间智能就是这里面非常关键的桥梁。" 群核科技联合创始人兼董事长黄晓煌表示。

而对于空间智能来说，它的核心是让 AI 真正理解物理世界的 " 语言 "：要让 AI 学会用 " 空间语言 " 描述世界，这是它走进物理世界的第一步。

上周，杭州 " 六小龙 " 之一的群核科技正式宣布开源新一代空间语言模型 SpatialLM 1.5 与空间生成模型 SpatialGen。这是中国企业首次面向全球开发者开放专注于 3D 室内场景认知与生成的大模型体系。

让 AI" 读懂 " 空间的几何密码

此次发布的两款模型分别针对文章开头所提的两大痛点——SpatialLM 1.5通过 " 空间语言 " 实现 3D 场景的结构化生成与交互，SpatialGen则依托 3D 高斯技术保障多视角图像的空间连贯性。

前者生成的场景富含物理正确的结构化信息，支持用户通过对话交互系统 SpatialLM-Chat 进行可交互场景的端到端生成，能够有效解决机器人训练数据难题；后者，专注于 " 生成与呈现 "，可根据文字描述、参考图像和 3D 空间布局，生成具有时空一致性的多视角图像。

据介绍，传统多模态模型（如 GPT-4V、通义千问 VLM）通过将图像切割为视觉 Token 与文本对齐，实现跨模态理解，但本质仍是对 2D 信息的处理。即 VLM 能描述 " 这是一张沙发 "，但无法理解类似 " 沙发长 2 米、距墙 50 厘米 " 之类的空间信息，更不能基于这些数据生成可编辑的 3D 场景。

SpatialLM 1.5 的突破在于，它将空间关系编码为 " 语言 "，是非多模态的 " 语言模型 "，它基于通义千问 3 小模型训练，通过 " 空间语言 " 指令实现 3D 场景的端到端生成。例如，用户输入 " 生成 100 平方米两居室，主卧含带扶手的老人床 "，模型会输出包含墙线坐标、家具尺寸、物理参数的结构化脚本，并自动匹配资产库中的 3D 模型完成布局。

"一个比较重要的维度就是空间理解。" 周子寒解释。传统大模型生成的是自然语言描述，而 SpatialLM 输出的是可直接用于渲染、仿真的"空间代码"。这一能力也使其成为具身智能机器人训练的关键工具——群核科技现场演示显示，基于 SpatialLM1.5 生成的家庭场景，机器人可自主规划 " 从卧室取药到客厅 " 的路径，并规避障碍物。

能达到这样的效果，与群核平台自有的稀缺数据有很大关系。据介绍，3D 数据的稀缺性是空间智能发展的核心瓶颈，互联网上有百亿级图像文本数据，但高质量 3D 场景不足千万级，且标注成本极高。

" 我最早是在 NVIDIA 做 Cuda，出来之后发现用 GPU 来加速物理世界的渲染一件非常有意思的事情。酷家乐大量积累的数据是可以用来训练空间理解模型、空间生成模型等，这些模型又可以进一步强化工具能力，逐渐形成了一个工具、数据、模型三个环节相互循环的数据飞轮。" 黄晓煌介绍。

基于公司早期创办的酷家乐这一全球最大的空间设计平台，截至 2025 年 6 月 30 日，群核科技拥有包含超过 4.41 亿个 3D 模型及超过 5 亿个结构化 3D 空间场景。

scaling law，在 AI 视频模型上并不奏效

"AI 视频模型即使有 scaling law，我们也不认为它能真正的理解现在的物理世界。" 群核科技 AI 产品总监龙天泽表示。

当前 AI 视频生成工具（如 Sora、即梦）常因视角切换导致物体 " 瞬移 "" 变形 "，例如，在生成一条让高达跳舞的视频时，其腿部的反向扭曲、模型的穿透、移动时背景的混乱等，都是很典型的 AI 视频工具面临的真正问题。

" 本质是它们基于 2D 图像序列训练，不懂 3D 空间规则。它学会了如何让上一帧图像在视觉上变的更像下一帧图像，但不理解所谓的物理世界运行的基本逻辑。" 龙天泽说。也正因此，scaling law 在 AI 视频模型上似乎并不奏效。

群核此次开源的 SpatialGen 通过多视角扩散模型打破了这一局限。它以 3D 高斯场景为中间载体，输入单张参考图和布局图，即可生成任意视角的图像，且保证物体形状、位置在不同帧中一致。现场演示显示，基于 SpatialGen 生成的 12 秒漫游视频，第 1 秒与第 12 秒的窗户、摆件位置完全吻合。

让模型 " 先造世界，再拍视频 "，" 如同虚拟摄像机，在 3D 世界内拍摄，所以天然会具备空间逻辑。" 这种方式使视频生成效率成倍提升，且支持比如 " 从厨房直接跳转到卧室 " 的非连续视角切换。

" 我希望它生成某个视角的一张图的时候，只要将这个视角指定，就会按照约束去生成。因为它是一个任意视角的生成模型，所以避免了视频模型非常依赖时空一致性的局限，可以去跳跃着生成任何视角的图片。" 周子寒补充。

群核科技也正计划基于 SpatialGen 年内推出一款 AI 视频创作工具，或许能够成为全球首款深度融合 3D 能力的 AI 视频生成 Agent。" 广告从业者真的有可能不需要太过于昂贵的团队和前期的资本投入就可以做出接近顶级水平的广告。工业设计师可以在几分钟内快速地为自己的产品完成一个 demo，并且展示详细的功能，" 龙天泽说。

现场，龙天泽以一款国产香水为原型，生成 " 日式风格下的落日光影 " 宣传视频，其在保持商品主体高保证还原的情况下，在复杂的运境和商品动效之下，依然保持了空间的一致性、画面的合理性，内容元素没有崩坏。

基于视频效果，这位香水主理人评价：" 离香奈儿、迪奥有非常大的差距，但考虑到生成的时间成本和金钱成本，在目前是比较重大的突破了，对于一些廉价品牌而言，这些视频已经具备足够 marketing 的属性。"

开源，中国 AI 的 " 生态突围 "

不过，群核开源两款空间智能模型，并非仅限于技术模型层面的突破。

" 目前空间智能肯定还是在一个发展的初期阶段的，我觉得任何一家公司都不可能独享这个市场。" 黄晓煌强调，" 所以我们在不断地开源数据、模型，希望跟全世界最聪明的大脑，全世界最有创新能力的人一起将这个‘蛋糕’做大，这是我们战略很重要的一部分。"

这在某种程度上也意味着，这家中国企业在空间智能领域，尝试从技术研发迈向生态共建。

2018 年，群核认为海量数据是能够训练出一些过去所不掌握的认知能力，于是决定学习李飞飞的 ImageNet，开源全球最大空间认知数据集 InteriorNet；今年 3 月，群核再次开源的 SpatialLM 1.0，迅速登上 Hugging Face 趋势榜前三。

目前，其开源策略已引发海外关注，上月群核开源全球首个 3D 高斯数据集 InteriorGS，在 Hugging Face 数据集中排到第一。" 它的作用是什么？过去自动驾驶领域的争议在于，做空间认知要不要激光雷达还是纯视觉就行了？中国很多车厂是用激光雷达的，但二者能否统一？这个数据集开源之后，很多机构跑过来跟我们讨论 3D 高斯作为统一输入好像是可行。" 黄晓煌透露。

这种影响力背后是技术路线的差异化。与李飞飞团队 World Labs 的 "3D 场景生成 " 不同，群核聚焦 " 可交互的功能场景 "。周子寒评价，李飞飞团队公布的 Demo 在大范围漫游上表现不错，但与其他业内已推出的世界模型一样，以 3D 表征为基础的世界模型，都会在空间一致性上有所缺失。此外，在生成的物理属性上，群核生成的场景不仅能看，还能让机器人开门、取物，这是工业级应用的关键。

" 第一是真实感的全息漫游，第二是结构化可交互，第三是复杂的室内场景。" 周子寒总结空间智能大模型的特点。基于此，周子寒也认为，基于空间智能大模型体系，工业软件领域曾经面临的 " 卡脖子 " 问题，中国企业有望探索出一条新路径。

" 传统工业软件的‘卡脖子’源于底层复杂的几何算法，但空间大模型提供了新路径。通过找一些增量方式，将原来在传统软件不太能涉及的领域，进行补齐，就有能力打造一个之前缺失的几何内核的部分。" 周子寒表示，即 SpatialLM 通过自然语言生成场景，在后续的探索中，有可能绕过传统 CAD 的复杂操作逻辑，" 我们不做达索、Autodesk 的替代品，而是创造‘ AI 原生’的设计工具——这就是弯道超车。"（本文首发钛媒体 APP 作者 | 秦聪慧）‌

宙世代

一起剪

相关标签