智东西 11-11
开源又赢闭源!商汤8B模型空间智能碾压GPT-5,AI看懂世界又进了一步
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 江宇

编辑 | 漠影

智东西 11 月 11 日报道,昨晚,商汤正式发布并开源 SenseNova-SI 系列空间智能大模型,涵盖 2B 与 8B 两个版本。

该系列模型在多个空间智能基准测试中均表现突出,其中 SenseNova-SI-8B 模型在 VSI-Bench、MMSI-Bench、MindCube-Tiny 与 ViewSpatial 四个核心任务上获得 60.99 的平均成绩,不仅大幅领先 Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等同级别开源通用模型,以及 SpatialMLLM(35.05)、ViLaSR-7B(36.41)等专注空间理解的模型。

值得注意的是,在保持 8B 参数规模的前提下,该模型的平均成绩已领先 GPT-5(49.68)与 Gemini-2.5-Pro(48.81)。

SenseNova-SI 系列模型在多个空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial)中的评测成绩

此次性能跃升,得益于商汤在训练机制上的系统性设计,其研究团队构建了 " 空间能力分类体系 ",并扩充空间理解数据规模,首次在该领域验证了 " 尺度效应 " 的存在。

这一技术突破也回应了当前多模态大模型面临的核心挑战之一:空间智能短板仍未补齐。尽管当前大模型在语言、代码、逻辑推理等任务上已展现出较强性能,但在需要空间理解能力的场景中,仍容易 " 栽跟头 "。

例如,GPT-5 可以正确解出复杂图形逻辑题,但面对判断立方体俯视图这类空间题时,却出现了明显错误。这类题对人类儿童来说往往是直觉判断,却仍难住了顶级模型。

SenseNova-SI 的构建与训练聚焦空间理解,其开源也为大模型在空间智能方向上的能力优化,提供了新的样本。

GitHub:https://github.com/OpenSenseNova/SenseNova-SI

Hugging Face:https://huggingface.co/collections/sensenova/sensenova-si

一、空间智能也有 "Scaling Law"?商汤团队首次验证

SenseNova-SI 的性能提升并非单点优化,而是建立在系统训练范式上的整体进化。商汤基于自研的空间能力分类体系,将空间智能划分为六大核心维度:空间测量、空间重构、空间关系、视角转换、空间形变与空间推理。

在训练数据层面,商汤团队整合多模态感知、视觉模型等方向的积累,系统扩展空间理解数据规模,并首次在空间智能领域验证了 " 尺度效应 " ——即随着数据量与质量的持续增长,模型的空间认知能力将同步增强。

这一方法具备通用性,能支持多种基座模型(如 InternVL)进行空间能力的增强迁移。商汤团队称,后续将发布完整的技术报告,进一步阐述具体的技术方案。

二、面对空间题,GPT-5" 犯难 ",SenseNova-SI 表现更稳定

在 SITE-Bench 和 MindCube 两大空间智能基准测试中,商汤研究团队选取了六道典型题目,涉及俯视图判断、视角转换、物体方位与移动方向推理等任务,分别对 GPT-5 与 SenseNova-SI-8B 进行了测试。

从结果来看,GPT-5 在多项题目中出现了误判,而 SenseNova-SI-8B 则连续给出正确答案,呈现出更稳定的空间理解能力:

1、俯视图选择题:在立方体组合图形中,要求选择正确俯视图。GPT-5 选择了错误的 D 选项,SenseNova-SI-8B 选择了正确的 B 选项。

2、相对方位判断题:模拟从相机操作者视角判断摩托车在左侧还是右侧。GPT-5 误判为左侧(A),SenseNova-SI-8B 正确判断为右侧(B)。

3、交通行为预测题:在多车道道路场景中预测黄色汽车的后续动作。GPT-5 判断为静止(C),SenseNova-SI-8B 判断为右转(D),正确答案为 D。

4、视角变换下的方向判断题(户外):通过两张场景图判断观察者的移动方向。GPT-5 选择了 C,SenseNova-SI-8B 选择了正确答案 D,即向左前方移动。

5、视角变换下的方向判断题(室内):在白板、椅子、沙发等室内场景中,判断物体位置变化所代表的观察者移动方向。GPT-5 选择 D,SenseNova-SI-8B 选中正确答案 A(向左前方移动)。

6、物体相对位置识别题:要求从正面视角图中判断桌子右侧的物体。GPT-5 选 B,SenseNova-SI-8B 选 C,正确答案为 C,即门的位置。

这组题覆盖了空间智能的多个关键维度,从结果来看,SenseNova-SI 在空间理解与推理上的表现更具稳定性。

三、空间智能走向落地,SenseNova-SI 接入 " 悟能 " 平台

SenseNova-SI 的推出,也是商汤整体空间智能战略的一部分。

今年 7 月,商汤发布 " 悟能 " 具身智能平台,提出以 " 开悟 " 世界模型为核心,推动机器人在物理世界中的自主理解与适应能力。SenseNova-SI 作为空间能力组件,将补强模型在三维结构认知方面的基础能力。

与此同时,商汤还同步开源了空间智能测评平台 EASI 及其 " 英雄榜 ",为统一测评口径、展示模型进展和推动开源生态合作。

结语:让 AI 真正 " 看懂 " 物理世界

当前 AI 在语言、知识与逻辑推理方面已有扎实积累,但三维空间的理解、感知与推理能力仍是其通向物理世界的重要挑战。

空间智能作为支撑具身智能与世界模型发展的核心能力,正成为衡量下一阶段 AI 模型 " 真实世界理解力 " 的一大指标。相关能力的持续构建,将为自动驾驶、机器人等落地应用提供更坚实的基础。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

商汤 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论