梁文锋推迟V4，是为了根治龙虾的健忘症？

文 | 字母 AI

DeepSeek 什么时候发 V4？AI 圈所有人都在猜，但正确答案可能只有梁文锋知道。

豆包、千问、元宝……无论大厂还是小厂，他们都在在春节期间扎堆发布新版本，生怕晚一步就被 V4 的光芒盖过。

换成任何一个正常的 CEO，面对这种全行业翘首以盼的局面，早就把半成品推出去了。

先占住声量，再慢慢迭代，这是互联网行业的基本操作。

但梁文锋偏不。跟他关系近的同行说了句大实话：" 团队稳，底子厚，不会草率发布。"

外媒报道，V4 是架构级重构。包含 1 万亿参数、百万上下文、原生多模态，并且将于 4 月份发布。

这次迭代的核心叫做 LTM，Long-Term Memory，即长期记忆。

LTM 是一套在模型架构内部实现持久化记忆的系统。它能让 AI 跨对话、跨任务地记住用户是谁、聊过什么、偏好什么。像人一样把重要的东西沉淀下来，而不是每次开机都从零开始。

而这个能力，恰恰是 OpenClaw 最缺的东西。

虽然 OpenClaw 可以替人干活，但它的记忆系统本质上只是往本地 Markdown 文件里写笔记，工作时会持续发送这个笔记到大模型里，这就导致用 OpenClaw 越久，发送记忆所消耗的 token 就越多。

整个社区都在想方设法地去解决这个问题，给它打补丁、装插件、装 Skill，却没人能从根上解决问题，因为问题出在模型本身，它天生不记事。

LTM 要做的，就是从架构层把这个病治好。

此次更新所带来的挑战，远超常规的版本迭代，而且模型的情感交互、个性化记忆等模块尚未完全迁移，还需要进一步调优。

因此梁文锋不是在拖延，而是在克制。

在一个所有人都在比谁先发、谁声量大的行业里，梁文锋选择等所有零件都对了再出手。

R1 之所以能一炮封神，靠的不是抢跑，而是一出手就让对手无话可说。

他显然打算用同样的方式对待 V4 ——要么不发，要发就是王炸。

01 梁文锋到底在憋什么

OpenClaw 的爆火让大家认识到了这样一个事，当 AI 真的开始替人干活，模型对上下文的理解和记忆能力就不再是加分项，而是决定它能不能用的底线。

一个记不住上文的 agent，每隔几轮就会重复犯错、丢失任务状态、忘记你刚才说过的话。

所以过去两年，业界也推出了不少的 LTM 方案。

比如伯克利团队在 2023 年提出的 MemGPT，借鉴虚拟内存的思路，让模型自己决定什么时候把哪些信息从外部存储调入上下文窗口、什么时候换出去。

2025 年发布的 Mem0，则是把这条路往工程化推了一步，在 LOCOMO 基准上比 OpenAI 内置记忆高出 26%，token 消耗减少 90%，这也是现如今 OpenClaw 社区用得最多的记忆插件。

前两天还有用扩散激活模拟人类联想式记忆提取的 SYNAPSE，以及用递归语义压缩解决记忆膨胀的 SimpleMem。

但所有这些方案都有一个共同的天花板，那就是它们都是在模型外部运行的中间件。

记忆的提取、压缩、检索，全部由外挂系统完成，模型本身不参与。因此，记忆的质量完全取决于外挂系统的工程水平，模型得到的记忆，也就参差不齐。

并且，所有记忆最终都要通过上下文窗口注入模型，这和 OpenClaw 碰见的问题一样，记忆越多，那么 token 成本也就越高。

还有一点，模型无法在外挂记忆上进行 " 学习 "。因为在这个过程中，模型做的事情是在读别人帮它整理好的笔记，而不是真的把经验内化成了能力。

梁文锋要走的，很可能是一条完全不同的路。

从梁文锋署名的 Engram 论文和 V4 架构泄露来看，DeepSeek 的方向不是在模型外面搭记忆系统，而是把记忆能力直接嵌入模型架构本身。

Engram 已经证明，在 Transformer 内部可以开辟一块专用的条件记忆空间，用 O ( 1 ) 的哈希查找来存取静态知识，在调用已存好的知识时，还不占用上下文窗口的容量，也不增加推理的计算成本。

更关键的是，Engram 的 " 无限记忆机制 " 实验表明，这块记忆空间的容量可以近乎无限地扩展，且模型的推理开销保持恒定。

我说得再直白一点，现在的模型想 " 记住 " 一件事，唯一的办法是把它塞进对话窗口里，窗口满了就得扔东西。

Engram 相当于给模型装了一块独立的硬盘，你可以把记忆存在这个外部的存储里，就不用堆在你电脑本身的硬盘中。当你想调取某一个记忆的时候，你把这块硬盘接上就行。

而且这块硬盘理论上可以无限扩容，查找速度恒定不变。

这条路如果走通，意味着 DeepSeek 跳过了整个 " 外挂记忆 " 的技术范式，直接进入了 " 原生记忆 " 的时代。

如果你了解 OpenClaw，你会发现梁文锋他瞄准的，恰恰是 OpenClaw 最薄弱的一环。OpenClaw 让 AI 有了手脚，却没给它一颗能记事的大脑。

OpenClaw 的记忆系统有三个结构性缺陷。

第一个是压缩损耗。

上下文窗口塞满后，OpenClaw 会自动把旧对话压缩成一段摘要来腾空间。事实保留了，但对话的脉络，全部丢失，而且不可逆。

换句话说，你们在讨论什么、决策的推理链条、语气和优先级都没有了，也都找不回来了。

比如压缩前，agent 记得一套完整的调试方案，压缩后只剩一句话，" 用户在调试一个 bug"，具体的排查路径全没了。

第二个是检索失效。

记忆文件用几周就堆到几百条，靠向量相似度检索召回。可是向量检索只能匹配语义相近的片段，无法理解条目之间的逻辑关系。

比如说我用 OpenClaw 做了三个方案，这三个方案分散在不同文件里，和客户敲定的是最后一个方案。当我后来想检索敲定的方案时，由于这三个方案都是用来发给客户的，就有可能只检索命中第一个方案或者第二个方案。

第三个是记忆容量有上限。

OpenClaw 的记忆分两层：核心记忆（MEMORY.md）每次会话启动时全量注入上下文，日志记忆则通过搜索工具按需召回。

听起来合理，然而核心记忆有硬性上限，单文件 20000 字符截断，所有 bootstrap 文件合计不超过 150000 字符。

可是你用得越久，MEMORY.md 越长，要么被截断丢信息，要么每次会话的 token 消耗线性增长。

还没完，日志那边，按需检索的质量完全取决于模型自己的判断，它觉得不相关就不召回，哪怕信息确实存在。很容易就会把重要的信息给丢掉。

说白了，这三个问题是同一件事：窗口就那么大，往里塞的东西越多，要么记错，要么找不到，要么太贵 OpenClaw 的记忆不是 " 记住了 "，而是 " 抄了一堆笔记然后翻不到 "。

如果 V4 真的在架构层面跑通了这条路，那它不仅解决 OpenClaw 的问题，还能让模型变成 " 可成长的模型 "。

用得越久越懂你。这和当前所有大模型的使用体验有本质区别，因为现在的模型无论多强，每次打开都是一张白纸。

腾讯的一项最新研究，从另一个方向印证了这条路的价值。

从 OpenAI 加入腾讯担任首席 AI 科学家的姚顺雨，在 2 月份的时候发布了他入职后的第一篇署名论文。

论文的名字叫 CL-bench，全称 Context Learning Benchmark，专门测一件事，就是大模型能不能从上下文里真正学到东西。

不是考它背了多少知识，而是考它能不能从你给的材料里现学现用。

结果很难看。

所有前沿模型的平均正确率只有 17.2%。正确率最高的模型是 GPT-5.1，可它也只做对了 23.7%。换句话说，你精心准备了一份详尽的背景资料喂给 AI，它有超过八成的概率没有真正 " 学会 "。

姚顺雨在论文中的判断是，当前 AI 与真正智能之间的鸿沟，不在于知识的多少，而在于学习的能力。一个装满知识却不会学习的 AI，就像一个背了整本字典却不会写作的人。

他在 AGI-Next 前沿峰会上也说过类似的观点，他认为大模型迈向高价值应用的核心瓶颈，就在于能否 " 用好上下文 "。

如何记忆，很可能成为 2026 年的核心主题。一旦上下文学习与记忆变得可靠，模型或许就能实现自主学习。

梁文锋不可能不懂这个道理，这就是为什么发布日期一推再推。

02 DeepSeek 要补的课

愿景归愿景，现实归现实。

在梁文锋闭关的这一年里，对手们没有停下来等他。DeepSeek 要补的课，比外界想象的多。

第一块短板是多模态，这也是最大的一块。

DeepSeek 到今天为止，还是一个纯文本模型。它没办法看图、看视频、听语音。

倒不是说 DeepSeek 完全没有视觉能力。在今年 1 月的时候，他们发布了 OCR 2，这是一个 3B 参数的文档理解小模型。它的核心是用一个叫 DeepEncoder V2 的编码器替代了传统的视觉编码器，让模型能像人一样按阅读顺序理解文档页面。

仅在文档解析的基准测试上，OCR 2 用最少的视觉 token 战胜了 Qwen3-VL-235B 这种千亿级选手。

但 OCR 2 只能做一件事：把文档里的文字、表格、公式提取出来。本质上是 " 图像→文本 " 的单向转换，不是通用的视觉理解。

换句话说，OCR 2 证明了 DeepSeek 有能力做好视觉编码，但从 " 能读文档 " 到 " 能看视频、听语音、理解自然场景 "，中间隔着的不是一步，而是一整个技术代际。

与此同时，其他大厂早就进入了 " 全模态 " 时代。

字节的 Seedance 2.0 证明了优秀的多模态模型有多大的用户基础和商业潜力。GPT-5.4 已经原生支持音频、视频和计算机操作。

有消息透露，梁文锋近半年的主要工作之一就是补齐视觉内容处理的短板。

第二块短板是 agent 能力。

DeepSeek 微信公众号自己置顶的文章标题就是 " 迈向 agent 时代的第一步 "，这就足以说明梁文锋知道该往哪个方向前进。

随着越来越多的人开始使用 OpenClaw，无论是大厂还是小厂，都在强调自己模型的 agent 能力。

Kimi K2.5 已经能自主调度 100 个子 agent、并行处理 1500 个步骤。ChatGPT 的 agent 功能可以自动填表、订机票、跨网站拉取信息。Claude 推出了 Agent Teams，多个 AI 协同完成复杂任务。

第三块短板是 AI 编程。

这是 2026 年发展最快、商业化最成熟的赛道。

在编程基准测试 SWE-bench Verified 上，Claude Opus 4.6 得分 80.8%，GPT-5.3 Codex 约 80%，DeepSeek V3.2 只有 73.1%。

在更难的基准 SWE-bench Pro 上测试，DeepSeek V3.2 得分为 40.9%，远低于 GPT-5.4 的 57.7%。

更关键的是，行业已经从 "Vibe Coding"，进化到了 "Agentic Engineering"，让 AI 独立完成工程级任务。

智谱的 GLM-5 论文标题就叫《From Vibe Coding to Agentic Engineering》，它能连续 24 小时跑代码、700 次工具调用、800 次上下文切换，从零构建出一个 GBA 模拟器。

此前曾有爆料称，DeepSeek-V4 的内部测试结果，在编程能力上超越了 Claude Sonnet 3. 。可如今，Claude Sonnet 3.5 已经被 Anthropic 官方完全停用了。

第四块短板是 AI 搜索。

现在几乎所有 ChatBot 产品都是联网的，你已经见不到还把模型联网单独设为一个开关的 APP 了。

OpenAI 有 ChatGPT Search，Google 有 Gemini Embedding 2 搜索。DeepSeek 的搜索能力一直是短板，而且其搜索结果经常会出现幻觉。

Vectara 的测试显示，DeepSeek R1 的幻觉率高达 14.3%，是 V3（3.9%）的近四倍。

在学术引用检索的测试中，这个数字更夸张，其引用的结果中，91.43% 都是错的，包括但不限于捏造论文标题、虚构 DOI、张冠李戴作者。

DeepSeek 自己也承认，幻觉是当前阶段 " 不可避免的 " 问题。

DeepSeek 在它没有自己的搜索基础设施，只能依赖第三方接口，信息源的质量不可控。

模型本身的事实校验能力不够强，即使拿到了正确的检索结果，也可能在生成环节引入错误。这两个问题叠加在一起，就是用户体验上的 " 搜了也不准 "。

在 agent 时代，搜索不是加分项，而是必选项。

DeepSeek 的短板，没有一块是小修小补能解决的。梁文锋不是在做一个更强的 V 系列模型，他是在同时打四场仗。

4 月，箭在弦上。但如果再跳票，也不必意外。对梁文锋来说，" 不发 " 永远比 " 发错 " 重要。

宙世代

一起剪

相关标签