AI编程节省95% token，工具调用上限狂飙20倍，开源记忆系统登顶GitHub热榜

用 Claude Code 写代码的人，终于不用每次开新会话都从头解释项目背景了。

顶 GitHub 开源热榜的一款持久化记忆系统 Claude-Mem，直击 AI 编程助手最致命的痛点：跨会话失忆。

Claude-Mem 本身 100% 免费，还能帮你省 token 钱。

它通过 " 三层渐进式披露 " 的检索架构，常规使用下能节省 90% Token，测试阶段的 " 无尽模式 " 更是能把 Token 消耗砍掉 95%，工具调用次数上限直接拉高 20 倍。

给 Claude Code 装上 " 长期记忆 "

传统 AI 编程助手有个绕不开的问题，每次新会话都是一张白纸。

昨天刚聊完的架构设计、上周敲定的编码规范、刚刚那些踩过的坑，AI 统统不记得。开发者只能一遍遍重复解释，时间和 Token 都在这种 " 复读 " 中白白流失。

Claude-Mem 的解法是在本地环境搭建一套完整的记忆系统。

它采用事件驱动架构，通过五个生命周期钩子（SessionStart、UserPromptSubmit、PostToolUse、Stop、SessionEnd）在后台静默运行。

每当 Claude Code 执行文件读写、代码编辑、命令执行这类工具调用，系统都会自动把这些操作捕获下来，存成 " 观察记录 "。

存储方案走的是混合路线：SQLite 配合 FTS5 负责全文检索，Chroma 向量数据库则用来做语义搜索。

所有数据都躺在用户本地的目录里，隐私方面不用担心。

会话结束时系统会调用 Claude Agent SDK，把整个会话期间那些冗长的原始工具使用记录，压缩成结构化的精炼摘要。

包含调查内容、学习成果、已完成工作、后续步骤这几个关键模块。

下次开新会话时，系统自动查库、检索、注入上下文，无缝衔接上回的工作。

三层检索省下 10 倍 Token

Claude-Mem 最大的亮点是一套 " 渐进式披露 " 检索工作流。

传统记忆系统做法把所有历史记录一股脑塞进上下文窗口，简单粗暴但极其烧钱。

Claude-Mem 反其道而行，把检索拆成三层：

第一层是索引层，用 search 工具拉一个只包含 ID、标题和类型的紧凑列表，每条结果大约只吃 50 到 100 个 Token；

第二层是时间线层，用 timeline 工具获取某条感兴趣记录前后的时序上下文；

第三层才是完整细节，用 get_observations 根据筛选出的具体 ID 批量获取详情，单条成本在 500 到 1000 Token 之间。

这套分层策略作用下，一个原本需要 20000 Token 才能完整加载的上下文，经过筛选后可能只需要 3000 Token 就能拿到所有必要信息，而且相关度是 100%。

处于测试阶段的无尽模式（Endless Mode）则更激进，它把工具输出实时压缩成大约 500 Token 的观察记录，Token 节省率直接拉到 95%。

由于上下文窗口占用率大幅下降，工具调用次数上限也跟着水涨船高，提升了约 20 倍，处理那些又长又复杂的任务也不用担心不够用了。

两条命令完成安装

功能之外，Claude-Mem 在用户体验上也下了功夫。

它内置了 mem-search 技能，支持自然语言查询项目历史。想知道 " 上周修复了哪些 bug" 直接问就行。

系统还提供了一个本地 Web 界面，可以实时查看记忆流、会话摘要，也能在稳定版和 Beta 版之间切换配置。

隐私控制方面，用户可以用标签阻止敏感信息被记录，新版本还引入了双标签系统，控制粒度更细。

安装流程走的是 Claude Code 插件市场，两条命令加一次重启就能搞定，不需要折腾复杂的环境配置。

GitHub

https://github.com/thedotmack/claude-mem

— 欢迎 AI 产品从业者共建 —

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注点亮星标

科技前沿进展每日见

宙世代