" 寒武纪 " 这个名字在 AI 圈里火得发烫。
由谢赛宁牵头,李飞飞和 Yann LeCun 站台搞的 " 寒武纪 ",大获好评。

此寒武纪究竟是什么?
Cambrian-S(寒武纪 -S),不造硅基芯片,而是专注于解决 AI 领域一个更核心的问题:让人工智能真正学会感知世界。

它的具体成果,是一款主打空间感知的多模态视频大模型,还兼顾了通用视频、图像理解能力,在短视频空间推理中拿下了 SOTA。

更厉害的是,加了预测感知模块后,连超长视频的空间任务都能扛下来——要知道,这可是很多主流模型的软肋。
这个李飞飞和 LeCun 都关注的空间智能领域的新模型,到底有哪些突破?
超感知:让数字生命真正体验世界
先从它的发展历程说起。
2024 年 6 月,团队先推出了Cambrian-1,这是针对图像多模态模型的一次开放性探索。
在这次尝试中,他们从 5 个方面方向进行了突破。
一是系统测评了 20 多种视觉编码器及组合,明确不同类型模型(语言监督、自监督等)的适配场景与优势;
二是设计了空间视觉聚合器 SVA,以更少视觉 token 高效整合多源视觉特征,兼顾高清处理与计算效率;

三是构建并优化视觉指令训练数据集,从 1000 万条原始数据筛选出 700 万条高质量数据,平衡类别分布并通过系统提示提升模型交互能力;

四是推出了 CV-Bench 基准测试,聚焦 2D/3D 视觉理解核心任务,弥补现有测评对视觉能力考核的不足;

五是总结了最优训练方案,证实两阶段训练、解冻视觉编码器等策略能显著提升模型性能。
按常理,下一步工作该是扩大规模搞 Cambrian-2、Cambrian-3,跟主流模型拼参数、拼数据量。
但团队并没有这么做,而是停下来反思" 什么是真正的多模态智能 "。
在他们看来,现在很多多模态模型,看似能看图说话,实则只是把图像信息转换成文字,再用语言模型处理——就像人只看了照片的文字说明,没真正看到照片里的场景。
于是,他们提出了超感知的概念。
超感知并不是换个更高级的摄像头、加个更灵敏的传感器那么简单。
谢赛宁一句话点透核心:
这关乎数字生命如何真正体验世界,吸收输入流并学习的能力。

简单说,就是让 AI 不止能看到物体,还能记住物体的位置、理解物体间的关系,甚至预判物体接下来的变化。
他还补了句更关键的:
在构建出超感知之前,不可能真正构建出超级智能。
顺着这个思路,团队又把目标聚焦到视频上,毕竟人感知世界,靠的不是一张张孤立的照片,而是连续的生活片段。
于是,视频空间超感知又成了核心方向:让 AI 能从视频里读懂空间关系,比如 " 人从门口走到沙发旁,拿起桌上的书 ",不只是识别人、沙发、书,还要懂 " 门口到沙发的位置距离 "、" 书在桌上的具体方位 "。
Cambrian-S:从 " 考倒 AI" 到 " 做好示范 "
有了方向,团队没急着先做模型,而是先解决了两个关键问题:
怎么判断 AI 有没有空间感知能力?
用什么数据教 AI 学空间感知?
带着这两个问题,他们先搞了个叫VSI-SUPER的基准测试,专门考 AI 的空间感知。
里面有两个看似简单的任务:一个是长时程空间记忆(VSR),让 AI 看几小时的室内漫游视频,之后回忆出视频里不寻常物体的位置;

另一个是持续计数(VSC),让 AI 在长视频里数清楚特定物体的总数。

现在市面上的模型一经测试,结果挺打脸,像 Gemini-Live、GPT-Realtime 这些号称能处理实时视觉输入的商业模型,在 10 分钟视频上的平均准确率还不到 15%,视频拉长到 120 分钟,基本就 记不住了。

这也证明,主流模型的空间感知能力,确实没跟上。
解决了 " 怎么考 ",再解决 " 怎么教 "。
团队建了个VSI-590K数据集,里面有 59 万条训练样本,既有真实场景的视频,也有模拟的空间场景,重点标了物体位置、动态变化这些关键信息,就相当于给 AI 准备了一套空间感知教材。

有了测试标准和训练数据,Cambrian-S模型家族才算正式登场。
参数规模从 0.5B 到 7B,不算特别大,但针对性极强。

核心训练逻辑是,通过预测下一帧的训练机制,让模型在推理时用意外度识别关键信息,最终实现对超长视频的空间理解和任务处理。

成绩也很亮眼,在短视频空间推理任务里拿了 SOTA;面对 VSI-SUPER 基准测试,比开源模型的空间记忆准确率提升了 30% 以上,部分任务甚至超过了一些商业模型。

更关键的是它的预测感知模块,模型会主动预判视频下一帧的内容,不仅让处理超长视频时更高效,还能控制 GPU 内存消耗,不用靠堆硬件来撑性能。

团队介绍
除了谢赛宁牵头,李飞飞和 LeCun 两位大佬站台,寒武纪项目还有其他几位核心贡献成员。
纽约大学的博士生 Shusheng Yang 领导了该项目,他曾经还参与了 Qwen 模型的开发,也在腾讯实习过。

Jihan Yang,本科毕业于中山大学,后在香港大学拿到博士学位,现为纽约大学柯朗数学科学研究所的博士后研究员,研究专注于推理、智能体、长视频、空间智能、统一模型等多模态大语言模型。

黄品志,是纽约大学的一名本科生,曾在 Google Gemini 实习。

Ellis Brown,本科就读于范德堡大学,主修计算机科学和数学,曾在斯坦福大学、哥伦比亚大学攻读非学位研究生课程,后获得卡内基梅隆大学硕士学位,目前为纽约大学库朗数学研究所计算机科学博士生。

参考链接:
[ 1 ] https://cambrian-mllm.github.io/
[ 2 ] https://x.com/sainingxie/status/1986685063367434557
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止!点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦