硅星人 14小时前
对话丘脑智能:当AI memory理解了“时间”,下一个抖音就要出现了
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天的 AI,很强,但不认识你。

它不知道你昨天经历了什么,不知道你正处于人生的哪个阶段,不知道今天的你和一个月前有什么不同。所以它只能等你问、等你发起一切——然后尽可能给出一个 " 正确 " 的回应。

这是被动智能。

当然,很多公司已经开始做 " 记忆 " 了。模型公司在做,希望让回答更个性化;应用层也在做,希望让 AI 更有温度、让对话更连贯。但这些记忆,本质上都是服务于具体场景的——让 AI 更好地即时 " 响应 " 你,而不是真正 " 理解 " 你。

丘脑智能想做的事情不太一样。他们想把记忆变成一种基础设施,理解你是谁、你在变成谁、你可能需要什么。

这件事分两步走。

第一步,是让记忆完整。现在大多数记忆方案只能处理文本,但人的生活还有照片、有语音、有视频、有各种各样的数据痕迹。而且这些信息是有时间顺序的,今天发生的事和三年前发生的事,意义完全不同。丘脑智能第一个要解决的,就是 " 时序性 " 和 " 全模态 " ——让 AI 能理解你生活中所有类型的信息,并且知道它们在时间轴上的位置。

这一步的地基已经打下—— 12 月,丘脑智能基于自研的时空知识图谱框架(STKG,Spatio-Temporal Knowledge Graph),在多项长程记忆评测中刷新了 SOTA 记录。

在针对 Agent 长期对话记忆的权威榜单 LoCoMo 测试中,他们的核心产品 OmniMemory 在保证 P95 检索延迟低于 2 秒的前提下,综合准确率达到 82.5%,跻身全球 AI 记忆方案的第一梯队,并于 1 月开始内测。

图源:丘脑智能

第二步,是真正的跃迁:主动智能。

当 AI 拥有了完整的、有时间感的记忆,它就能够主动预判你的需求。

这背后的逻辑是:人是有轨迹的。你今天的状态,是昨天的延续;你明天的需求,往往藏在今天的变化里。如果 AI 能看到这条轨迹,它就能推断你接下来可能需要什么。

这让我想到一个视角:人其实是 " 三维半 " 的生物。我们生活在三维空间,同时拥有过去、现在、未来,但我们对时间的掌控力很弱。过去只能记住一部分,很多塑造我们的东西早已被遗忘;未来充满不确定性,我们只能模糊地猜测。

即使是今天的推荐算法,只知道 " 你刷了什么就推什么 "。它假设你是静止的,你昨天喜欢的东西今天还喜欢。但人是变化的。如果 AI 能理解你在时间轴上的变化,它就不会把你锁死在信息茧房里,而是能预判你正在变成什么样的人、未来可能需要什么。

这是交互范式的改变。从 " 人找信息 " 到 " 信息找人 ",再到 "AI 懂人 "。

丘脑智能正在做的,就是这个范式转换的基础层。在这次对话中,丘脑智能的 CEO 张源、CTO 赵翔聊了聊他们对记忆、对时间、对 AI 与人关系的思考。

这些思考也许还在演化中,但指向一个清晰的方向:给 AI 一个时间轴,给人一个时间轴上的 AI。

以下是对话实录:

一张蓝图绘到底,做 " 时序性 + 全模态 " 的高精度记忆架构

硅星人:可以先向大家介绍一下你们自己和你们的产品。

张源:我和赵博是 2023 年初认识的,当时 OpenAI 的模型把大家都震撼了,我们都觉得未来十年甚至更长时间都是 AI 的黄金时期,非常想在 AI 领域创业。

但那时候百度刚发了文心一言,国内反馈挺激烈,我意识到国内基模可能还需要迭代一段时间。所以我们决定先各自积累——赵博在浙大做相关研究,我去了一家做自动驾驶域控的公司,做了两年 COO,从 0 到 1 走了一遍创业流程。

到 2025 年初,DeepSeek 让我们觉得基模能力到了一个节点,是创业的好时机。又因为我自己是高频 AI 用户,首先感受到了记忆孤岛问题——在 Gemini、GPT、豆包上输了很多 prompt,不满意换一个基模还要重复输入偏好,非常麻烦。我搜解决方案,发现大家做 memory 都做得不好。赵博刚好也在关注这个方向,我们就决定自己来解决这个问题。

赵翔: 对,我们的 Omimemory 1.0,是把 Memory 能力封装成 SDK 和 API。技术上我们做的是时空知识图谱(STKG),把时间和空间作为记忆的物理锚点,支持视频、音频、对话、图片等全模态输入。12 月我们刷新了 Memory 领域的 SOTA,今年 1 月开始产品内测。

硅星人:从 25 年下半年开始到现在,市面上已经有非常多的 memory 解决方案了。Omimemory 和它们的区别是什么?

赵翔:现在市面上的 memory 产品,大多数是基于 RAG 的方案,就是把用户的对话、文档切片存到向量数据库里,需要的时候检索出来。这种方式有几个问题:一是检索精度受限于 embedding 模型的能力,二是缺乏对时间和空间维度的建模,三是没有办法做跨模态的关联。

我们的核心区别在于,我们把时间和空间作为记忆的物理锚点。比如用户说 " 上周在杭州见了一个朋友 ",我们不只是把这句话存下来,而是构建一个结构化的知识节点,包含时间、地点、人物、事件之间的关系。当用户后来问 " 我上次去杭州是什么时候 " 或者 " 我最近见过哪些朋友 ",系统都能准确召回。

硅星人:时间性在你们看来为什么这么重要?其他记忆产品处理时间的方式和你们有什么不一样?

张源:我们认为,做 Memory 无论技术路径怎么收敛,唯一绑不开的就是时间。人去回忆一件事情会说 " 去年冬天咱们一起吃火锅的时候怎么样 ",是沿着时间轴去做漏斗筛选的。

赵翔:其他产品的时间是作为节点的属性挂在下面的,记录这个节点什么时候写进来。但召回的时候还是靠语义,可以加一个时间漏斗过滤,但在这个时间范围内召回节点时,还是先用语义把相近的召回,再排序。

这就不可避免地会把昨天和今天完全相反的两个记忆都召回来。比如用户昨天说 " 我最近失眠很严重 ",今天说 " 我昨晚睡眠好多了 ",RAG 方案可能会把这两条都召回来,因为它们语义上都和 " 睡眠 " 相关。两个完全相反的事实放在面前,模型就会困惑,随便挑一个回答。

而我们的时空知识图谱会识别这是同一个状态维度上的变化—— " 睡眠状态 " 从 " 失眠 " 转换到了 " 改善 "。召回的时候,系统知道应该用最新的那个状态。

硅星人:这是一套很复杂的架构,具体是怎么搭建的?

赵翔:我们可以看这张图,最底层是时间维度,这是基础。

图源:丘脑智能

接着是支持全模态的原始素材层,视频帧里可以抽取人脸、物体、动作、场景这些信息,和身份绑定在一起。文本对话按 turn 组织成结构化 seission 然后提交到服务端,语音可以做 embedding 同时转 ASR 变成文本。

再上一层是认知层,我们模仿人的认知。人记东西一般记的是事件,很少直接记很细的东西。这是从原始素材里抽象出来的时序事件。事件里有身份 Entity,通过算法把这些聚类起来,就是 " 谁在哪里做了什么 "。

最上一层是状态 State,这是更细粒度的状态转换。比如 " 我今天上火 " 和 " 我明天好了 " 就是一个状态转化,模型看到这个,就会判断他现在能不能吃辣。

整体架构是在模拟人的认知,从物理到感知再到认知。

硅星人:最近两年,记忆架构一直在迭代,最开始做的都还比较粗糙,你们是从一开始就决定要做这么高精度的解决方案吗?

张源:我们认为要一张蓝图绘到底,先想清楚最终要实现什么目标、这个目标是不是真实的需求、能不能带来范式迭代,然后倒推现在该怎么做。中间的研究困难、工程卡点,都可以通过资源整合去解决。

所以,我们希望去解决未来的问题。我们判断 AI 的终局是主动智能,就是 AI 不只是被动回答问题,而是能主动理解你、帮你做事,那记忆的底层架构从第一天就必须是高精度的,包括时序性的、全模态的。

硅星人:可以举几个例子来说明吗?比如,从物理到感知到认知的 memory 过程。

张源:比如这周你口腔溃疡、上火、失眠,首先是在上周这个物理时间段发生的,其次,这是一个新发生的感知,并抽象出了一个你当前的状态,比如,你不能吃辣、喝咖啡,过段时间不管你变好了,还是变坏了,这个状态都会进一步跟随时间轴更新。

硅星人:可能抽象出更高的状态,比如 " 我冬天容易上火 ",可以这样理解吗?

张源:对。

潜空间记忆:从被动响应到主动智能

硅星人:你们说的主动智能是什么?

张源:主动智能出现的前提是它能向前预测你的习惯,主动来提醒你,而不是像定闹钟一样你去告诉它什么时候提醒,或者像现在的陪伴产品一样你得主动找它。

硅星人:相当于 AI 基于 AI 与用户聊天的轨迹,不断更新下一步如何与用户交互?

赵翔: 可以这么理解。现在的 RAG、Graph RAG,有点像全部塞到上下文里面让模型去读一大堆信息,显得好像跟你很熟,这个很死板。

实际上,用户在和 AI 交互的过程中会积累很多偏好和习惯。每一次交互,其实都是一个偏好信号。这些东西对于个性化来说非常有价值。

但这种细粒度的偏好量非常大,所以我们现在在做一个叫潜空间记忆的东西。像推荐算法一样,在大量反馈信号的基础上,从图里抽取偏好信息做一个子图,把子图压成一个稠密向量。这个稠密向量人看不懂,但模型看到以后,会非常自然地了解你的每一个点。

可能有一点抽象,但就像抖音一样,冷启动的时候刷了一堆不喜欢的视频,点了几个赞之后,刷到的就全部都想看了。

张源:对,当时互联网初期,大家都在百度、Google 搜索,有了推荐算法之后长出了抖音这样的超级应用。现在 AI 生态大家都是去 DeepSeek、ChatGPT 上问一下,都是通用的。我觉得可能会有一个面向 C 端的主动智能超级应用长出来。

硅星人: 这么做的难点在哪里?

赵翔: 确实有点壁垒。关于潜空间注入,如何让模型把我们非常稠密的信息精准挖出来不丢失语义,有对齐的困难。

这个困难主要来自于:我们怎么去构造端到端的数据?如果不构造端到端数据,用 DPO 进行强化学习的话,reward 信号该怎么打造?这里面有一些非常细的工程难点,但从理论上,目前研究和前景都是可观的。

硅星人: 工程上的难点反而是好事,因为有壁垒。

赵翔:是的,研究和 Infra、工程之间是紧密耦合在一起的。

张源:潜空间记忆是我们正在做的下一步方向,是跨代际的,想象空间非常大。但我们必须先有第一个基础——把数据存好、提取好,才能做好用户的特征向量,一步步来。

从陪伴、硬件到具身,做深物理 AI

硅星人: Memory 主要是 To B 的,你们的客户是谁?

张源: 我们现在已经开始内测了。从产品层面来说,我们第一步对标是 supabase,最大程度的降低大家使用记忆的门槛,第二步是在我们记忆底座能力足够扎实的基础上,期待顺其自然生长出来主动智能的 ToC 的超级应用。这个定位决定了我们更关注技术指标和可集成性。

现在找过来的客户,有一些做 IP 的,比如拿了北京动物园大熊猫萌兰 IP 的;有一些做解决方案的供应商,专门给陪伴类做解决方案的;还有一些纯软件的陪伴产品。我们挑了一些物理距离上离我们近的做内测。

硅星人: 为什么先选陪伴类?

张源: 因为陪伴先商业化了,大家在商业化过程中越来越意识到缺乏记忆是很痛的痛点——相当于市场对于记忆需求的成熟度比较高。

硅星人: 除了陪伴类,还有什么行业呢?

张源: AI 硬件、具身机器人,还有一些法律、金融这种垂类 Agent 也来找我们。因为我们不仅是多模态的,而且图谱所有召回的记忆都是可审计的,有坚实证据,所以一些比较严肃严谨的行业也有需求。

硅星人: 不同行业对记忆的需求有什么差异?

张源: 面向女性用户的伴侣产品会更需要高精度记忆,用户更关注的是 AI 能够记得习惯喜好,还有恋爱当中的一些小细节。

具身对记忆的需求非常刚性。比如 Figure 描述的那样,具身机器人给你做家务,你的身份证或钱包放在茶几上,它给你收拾起来放到某个抽屉里。过了一个多月你再用的时候,如果它只有视觉识别没有 Memory,它就忘了放哪了找不到了。

硅星人: 不同行业的客户对你们的价值是怎样的?我知道很多 AI 陪伴公司其实盈亏很难平衡,行业也不是很有钱,他们会介意成本吗?

张源:我们按照客户的付费能力和对隐私的敏感程度,把客户分成了 B+、B 和 B-。

B+ 是有很高付费能力的,公司有品牌,可能 Day 1 就全球收美国订阅。他们对隐私要求非常高,也不在乎方案多花 10 万、20 万。这种就是私有化部署加 API,数据物理隔离。

B- 是付费能力几乎没有,但路子很野,出货量特别大。对这部分客户,我们更侧重通过脱敏的方式 " 联合建模 ",积累用户的通用 "Life Context"。

B 类客户可以 case by case。所以从收费模式上,目前客户的反馈都还挺好的。

硅星人: Life Context 的数据积累,就是做潜空间记忆。

张源: 我们去打了一些 benchmark 榜单,刷新了 SOTA,但我们觉得这个事别人花点时间也能刷上来,但潜空间记忆是我们最终想做的,一个真正的跨代际提升,这需要积累更多的人生上下文。

赵翔: 对,潜空间记忆需要把海量的交互行为压缩为机器可读的稠密向量。这些向量是去标识化的,不包含任何个人身份信息(PII),但包含了人类通用的行为逻辑——比如 " 当人类表达愤怒时,通常希望得到怎样的安抚 "。

就像抖音一样,冷启动的时候刷了一堆不喜欢的视频,点了几个赞之后系统捕捉到了行为模式,刷到的就全部都想看了。没有足够多的行为样本,就训练不出足够懂人的潜空间模型。

张源:所以,商业化上,要么对接 Agent,要么对接 AI 硬件,要么对接 GPT wrapper,谁先落地我们就接谁。

硅星人: 记忆产品因企业而异、需求而异,要考虑效率、成本等多维度因素。你们现在对接客户难吗?

张源: 我们现在的状态是——深圳那边好多做陪伴的,华强北超级多。我们更希望做长期主义的事情,现在他们来找我们,我们先开放一个口做内测,测得好再签。因为我们想做长期主义的事情,跟客户长期交朋友,测试客户找物理距离相对近的方便客户随时面对面的给我们提出建议。

硅星人: 你们自己的成本高吗?

张源: 我们做过极限测试,用了 1000 万的向量边的约束,测了存储极限,不考虑遗忘的情况下是 1570 天。如果考虑遗忘,就可以用极低成本做到终身记忆。所以我们成本不高。

先跑完 milestone,再见投资人

硅星人: 你们未来想做成什么样的公司?

张源: 从 0 到 1 是做记忆领域的 Supabase,我们想做的事情是降低大家使用 Memory 的门槛,让记忆成为大家在 AI 时代做任何 AI 应用的标配。通用、标准、更低门槛。

硅星人: 团队是什么时候创立的,做了多久了?

张源: 从 25 年 3 月份开始攒这个事情,11 月份注册公司,12 月份我们 Benchmark 刷新了 SOTA,1 月开始线上内测。

硅星人: 你们现在融资情况怎么样?

张源: 融资肯定是需要的。12 月上旬刷新 SOTA 之后,反馈非常好。前段时间中关村四杰预测 26 年什么事情比较热,大家一致结论是要做好 Memory 的理解,可能才能拿到 26 年的第一张船票。种种因素把整个赛道热度推起来了。

最近好多投资人、投资机构主动找过来,我们也非常感谢大家关注,目前正在积极推进。

硅星人: 在融资之前,你们是怎么运转的?之前聊过投资人吗?

张源: 在产品出来前,我们完全没找,就是决定用自己的钱。

尤其我们作为创始团队应该考虑:在极限条件约束下,你还想不想做这个事情?还有没有信心做好?客观上能不能做好?三个答案都是 yes 才能着手做。所以我们在创业第一天就说,在最早期、第一个 milestone 出来之前,必须花自己的钱养团队、做支出。

硅星人: 你们会考虑开源吗?

张源: 一方面是代差代际开源,另一方面是我们想做的事情是降低大家使用 Memory 的门槛。比如即使有一些友商开源之后,也只是一些有水平的开发者能用,并没有实现 Memory 能力的平权。

我们想做的是让记忆成为大家在 AI 时代做任何 AI 应用的标配,可能是自然语言调用,可能是一行代码调用。所以我们非常看重开发者生态、开发者关系、开发者声量。

毕竟每一次交互范式变革都会引发新一轮高增长,从诺基亚按键手机到 iPhone 是,从搜索到推荐是,我们相信从被动到主动也会是。这种变革能带来巨大的创业机会。

而我们要做的是,成为 AI 时代主动智能超级应用的基础建设。

评论
大家都在看