罗福莉：AGI已经实现了，下一步是“自进化”

文 | 字母 AI

" 干活消耗的 Token 量是简单问答的 10 倍甚至 100 倍，成本大幅提高。"

回答月之暗面 CEO 杨植麟 " 为什么涨价 " 的问题时，智谱 CEO 张鹏这样说道。

上文这组问答，发生在今天举行的 2026 中关村论坛年会开源主题圆桌上。和三个月前清华主导的 AGI-Next 开源论坛不同，今天的开源主题圆桌上多了一些新面孔。

年初的 AGI-Next 上，演讲嘉宾除了智谱创始人唐杰和杨植麟外，还有彼时的 Qwen 技术负责人林俊旸。

几个月时间过去，林俊旸以一种戏剧性的方式从阿里迅速离职。而在这场圆桌上，除了杨植麟和张鹏，基模界的另一位代表是小米 MiMo 大模型负责人罗福莉，以及无问芯穹联合创始人兼 CEO 夏立雪、香港大学助理教授、博士生导师、Nanobot 团队负责人黄超。

和罗福莉现身同步的是 MiMo-V2-Pro 近期在模型市场的火热表现。OpenRouter 最新周榜数据显示，小米 MiMo-V2-Pro 模型拿下周榜第一，成为 OpenRouter 史上首个周 Token 消耗量超 3 万亿的模型。

小米也凭借 MiMo-V2-Pro 的出色表现，与智谱、MiniMax、阶跃星辰、DeepSeek 等一众国产大模型厂商包揽周榜前六名。

和 AGI-Next 不同，今天的圆桌会谈并不仅仅聚焦模型。除了月之暗面、智谱、小米三大基模厂商代表之外，无问芯穹是清华系孵化的 AI Infra 企业， Nanobot 是港科大在今年初发布的开源 Agent 框架。

换句话说，这场论坛从 Agent 生态出发，实际上涵盖了整个 AI 行业的产业链。

值得关注的是，几个月前 AGI-Next 举行时，智谱刚刚上市 3 天，创始人唐杰主导了那一场论坛。而在今天的开源主题圆桌上，主导对话的杨植麟和月之暗面，刚刚在昨日传出了考虑赴港 IPO 的消息。

特殊的时间节点，加上中关村论坛的 " 舞台 "，这一场圆桌论坛被迅速推到行业的聚光灯下。

谈 OpenClaw 时代机遇｜夏立雪：每两周 Token 翻一倍

杨植麟：现在最流行的就是 OpenClaw，大家在日常使用或者类似产品时，觉得什么最有想象力或印象深刻？我们从技术角度，先请张鹏谈谈对 OpenClaw 和相关 Agent 的看法。

张鹏：我把它称作一个 " 脚手架 "。它提供了在模型基础上搭建非常牢固、方便且灵活的可能性。普通人可以以极低门槛使用顶尖模型，尤其是在编程和整体能力方面。以前想法受限于不会编程等技能，现在通过简单交流就能完成，这是一个非常大的突破。

夏立雪：我最开始用不太适应，习惯了聊天式交互，感觉 OpenClaw 很慢。后来发现它其实是能帮我完成大型任务的。从按 Token 聊天到现在能完成任务的 Agent，想象力空间提升了，但对系统能力要求也变大了，这就是为什么一开始会觉得卡。

作为基础设施厂商，我看到的是机遇和挑战。我们的资源要支撑起这个快速增长的时代。比如我们公司从 1 月底开始，每两周 Token 量翻一番。现在的 Token 用量就像当年 100 兆手机流量的时代。我们需要更好的优化和整合，让每一个鲜活的人都能用起来。这对整个社区是巨大的优化空间。

罗福莉：我认为 OpenClaw 是一个非常革命性和颠覆性的事件。虽然深度 Coding 的人首选可能还是 Code，但用过 OpenClaw 的人会感受到它在 Agent 框架设计上是领先于 Code 的，Code 的最新更新其实都在向 OpenClaw 靠近。

它给我的最大价值在于 " 开源 "：这有利于社区深入参与。它把国内次顶级闭源模型的上限拉得非常高，在绝大部分场景下任务完成度已非常接近最新模型，同时又靠 Skill 体系保证了下限。

此外，它点燃了大家的想象力。大家发现大模型外的 Agent 层有巨大空间，更多人不仅是研究员，开始参与 AGI 变革，这在一定程度上替代了重复工作，释放了时间去做更有想象力的事。

黄超：首先是在交互模式上，OpenClaw 给了大家一种 " 更有活人感 " 的体验。之前的 Agent 工具感更强，而 OpenClaw 以 " 软件切入 " 的方式，更接近大家想象中的个人贾维斯（J.A.R.V.I.S.）。

其次，它证明了架构 Agent 的框架可以既简单又高效。它让我们重新思考：是否需要一个 All-in-one 的超级智能体，还是需要一个轻量级操作系统或脚手架式的小管家？它让大家更有 " 玩起来 " 的心态，撬动生态里的所有工具，通过 Skills 或 Tool 的设计，赋能各行各业。

杨植麟问张鹏：为什么涨价？

杨植麟：张鹏，智谱最近发布了新的 GLM Turbo 模型，对 Agent 做了增强，能否介绍一下新旧模型的不同？以及观察到的提价策略反映了什么市场情况？

张鹏：发布 Turbo 主要是为了从 " 简单的对话 " 转向 " 干活 "。OpenClaw 让大家看到大模型能干活，但干活背后的 Token 消耗非常高，需要规划、尝试、Debug、处理模糊需求。Turbo 在这些方面做了优化，本质上是多智能体协同架构，但在能力上有偏向性加强。

关于提价，因为干活消耗的 Token 量是简单问答的 10 倍甚至 100 倍，成本大幅提高。长期低价竞争不利于行业发展，调整价格是为了回归正常的商业价值，让我们能持续优化模型，提供更好的服务。

杨植麟：随着开源模型和推理算力形成生态，Token 量爆发，逐渐从训练时代变成推理时代。请教夏立雪，这对无问来说意味着什么？

夏立雪：我们一直在思考 AGI 时代的基础设施是什么样子，以及如何一步步实现它。

当前脚下的问题在于 AI 带来的暴增需求，对系统效率提出了更高的优化要求。我们通过软硬件打通来解决，接入了几乎所有种类的计算芯片，连接国内几十种芯片和算力集群，让资源用在刀刃上，提升转换效率。我们打造了一个标准化的 Token 工厂。

但这还不够，Agent 更像人，能以秒 / 毫秒级思考和发起任务。而现有的云计算基础设施是为 " 人 " 设计的（分钟级操作），限制了 Agent。我们需要打造更智慧化的工程，让基础设施能适应 AI 的高频需求。

基础设施本身也应该是一个智能体，能够自我进化、自我迭代，形成自主组织。Agent 之间能更好地通信和协作。基础设施和 AI 的发展不应隔离，而应产生化学反应，实现真正的软硬协同和算法与基础设施的协同。

谈国产模型｜罗福莉：推理需求爆发，今年可能增长 100 倍

杨植麟：罗福莉，小米最近通过发布新模型和开源技术对社区做出了贡献，小米做大模型有什么独特优势？

罗福莉：我想先不谈小米的独特优势，而是谈谈中国大模型团队的优势。

两年前，中国团队在算力受限，尤其是互联带宽受限的情况下，做出了突破：在低端算力限制下，通过模型结构创新（如 DPCV3、M1、MA 等）去追求最高效率。这给了我们勇气和信心。

虽然现在国产芯片不再受限，但这种对高效率、低推理成本的探索依然重要。例如，现在的 Hybrid、SPA、Linear Attention 结构等。

为什么结构创新重要？因为 OpenClaw 越用越聪明的前提是推理 Context。现在的难题是：怎么在 1M 或 10M 的长上下文下，做到成本够低、速度够快？只有这样，才能激发高生产力任务，实现模型自迭代，在复杂环境中依靠超长 Context 完成自我进化。

我们现在正在探索 Long Context Efficient 架构，以及如何在真实长距离任务上做到稳定和高上限。

更长期看，随着推理需求爆发，今年可能增长 100 倍，竞争维度将下探到算力、推理芯片甚至能源层面。

谈 Agent 迭代｜黄超：Memory 应该走向分层设计

杨植麟：黄超，你开发了 Nanobot 等有影响力的 Agent 项目，从研发或应用层面，接下来哪些技术方向值得关注？

黄超：关于 Planning：现在的问题在于，面对长程任务和非常复杂的上下文（比如 500 步甚至更长），很多模型不一定能做好规划。这本质上是因为模型可能不具备这样的隐性知识，特别是在复杂垂直领域。我觉得未来的 Planning 需要把很多已有的复杂任务知识固化到模型里。

当然，Skill 和 Harness 本质上也是为了缓解 Planning 带来的错误，因为提供了高质量的 Skill，可以帮助模型去完成比较难的任务。这是针对 Planning 的解决方案。

然后是 Memory：现在 Memory 永远存在信息压缩不准确、记不准的问题。在长线任务和复杂场景下，Memory 会暴增，带来很大的压力。现在各类 LLM 和 Agent 都采用最简单的文件系统、Markdown 格式的 Memory，通过共享文件来做。我觉得未来的 Memory 应该走向分层设计，让 Memory 更通用。

因为现在的整个 Memory 机制很难通用，比如 Coding 场景、深度学习、多媒体领域，模态差别很大。如何对这些 Memory 做很好的检索索引、做到更高效，永远是一个权衡。

另外一点是，OpenCode 让大家创建 Agent 的门槛大幅降低之后，未来可能不止一个 Agent。我看到 Kimi 也有 Agent Swarm（智能体群）机制，相当于未来每个人会拥有一群 Agent。一群 Agent 相比于单个 Agent，上下文会暴增，现在还没有一套很好的机制去管理，尤其对复杂 Coding、科研发现来说，不管对模型还是对 Agent 架构，压力都很大。

对于 Tool Use 这块：现在 Skill 还是存在 MCP 当年的问题，就是质量不保障、有安全问题。现在 Skill 确实很多，但高质量 Skill 比较少，低质量 Skill 会很影响任务完成度。另外，Skill 也很难避免恶意问题。

所以 Tool Use 这块可能需要靠社区，把 Skill 发展得更好，升级到在执行过程中进化出新 Skill 的能力。

这就是我觉得当下 Agent 存在的一些痛点和未来潜在的方向。

" 在模型行业，12 个月已经很遥远。"

杨植麟：最后我们来做一个开放式展望。想请各位用一个词来描述接下来十二个月大模型发展的趋势，以及你的期望。这次我们先从黄超开始。

黄超：我觉得，在 AI 领域谈十二个月，其实已经是一个很遥远的时间了，很难判断十二个月之后会发展成什么样。原来这里面写的是五年，但我觉得把时间缩短到一年，反而更真实。

如果让我用一个词来概括，我会选 " 生态 "。

现在 " 龙虾 " 让大家变得非常活跃，但我认为，未来 Agent 真正重要的方向，是从一个 " 个人助手 " 进一步转变成一个真正的 " 打工人 " 角色。也就是说，它不能只是因为新鲜、好玩而被大家使用，而是要真正沉淀下来，成为大家日常工作的工具，甚至成为一个真正的 coworker。

所以我觉得，这件事一定需要整个生态共同努力。尤其是开源非常重要——当相关技术探索，包括模型层面的很多技术，都开源出来之后，整个生态才有机会一起共建。不管是模型迭代、Skills 平台迭代，还是各种工具的发展，我觉得都需要更好地围绕 Agent 来构建，创造一个更适合它生长的生态。

从我个人的感受来看，一个比较明显的趋势是：未来很多软件，可能未必还是主要给人用的。过去的软件默认是面向人的，而人需要 GUI；但未来很多软件，可能会越来越面向 Agent 原生使用，也就是 Agent Native。这样的话，可能会出现一种很有意思的状态：人最终只使用那些能让自己感到快乐的 GUI。

所以我们也看到，整个生态正在从 GUI、MCP，逐渐转向 CLI 这样的模式。我觉得这背后说明，整个软件系统、数据体系，以及各种技术能力，都需要逐步变成 Agent Native 的模式。只有这样，Agent 的发展才会真正丰富起来。

罗福莉：我觉得，把这个问题缩小到一年，其实非常有意义。因为如果放到五年，从我自己对 AGI 的定义来看，我甚至会觉得它已经实现了。

如果要用一个词来描述接下来一年里，AGI 进程中最关键的一件事，我认为会是 " 自进化 "。

虽然这个词听起来有点玄，过去一年大家也提过很多次，但我最近才真正对它有了更深的体会。更重要的是，我开始看到 " 自进化 " 这件事，已经出现了一个更务实、可落地、可实操的路径。

原因在于，借助于足够强大的模型，我们之前在 chat 这个范式下，其实并没有真正发挥出预训练模型的上限。而这个上限，现在正在被 Agent 框架激活。尤其是当模型开始执行更长时间任务的时候，我们会发现，它是可以自己学习、自己进化的。

一个很简单的尝试就是：在现有的 Agent 框架里，给它叠加一个可验证的约束条件，再给它设置一个 loop，让模型不停下来，持续地围绕目标迭代优化。这样我们就会发现，它能够不断拿出更好的方案。

如果这种自进化持续下去，现在其实已经可以跑一两天了，国内很多模型基本都能做到，当然这也和任务难度有关。比如在一些科学研究任务里，像探索更好的模型结构，因为模型结构本身有明确的评估标准，比如更低的 perplexity，这类任务就比较适合验证。我们已经发现，在这种确定性较高的任务上，模型能够自主运行和演化两三天。

所以从我的角度看，自进化是目前唯一一个真正有机会创造 " 新东西 " 的方向。它不是简单替代现有人的生产力，而是像顶尖科学家一样，去探索这个世界上原本还不存在的东西。

其实一年前，我还觉得这个进程可能需要三到五年；但就在最近，我开始觉得这个时间尺度应该缩短到一到两年。也就是说，我们很可能在近期就能看到：大模型叠加一个很强的自进化 Agent 框架后，对科学研究带来至少指数级的加速。

因为我最近已经观察到，我们组内做大模型研究的同学，他们的 workflow 本身就高度不确定、依赖创造力。而借助 Claude Code，再加上顶尖模型，基本已经能够把我们自己的研究效率提升接近十倍。

所以我非常期待，这样的范式能够辐射到更广泛的学科和领域。我觉得这是接下来非常重要的一件事。

夏立雪：我的关键词是 " 可持续 Token"。因为我看到，现在整个 AI 的发展仍然处在一个长期持续推进的过程中。我们也希望，它能够真正具备长期的生命力。

从基础设施的角度来看，一个非常现实的问题是：资源终究是有限的。就像我们当年讲 " 可持续发展 " 一样，现在站在 "Token 工厂 " 的视角，我们能不能持续、稳定、大规模地提供 Token，让顶尖模型真正长期地服务更多下游场景，我觉得这是一个非常关键的问题。

所以现在我们也需要把视角放宽到整个生态。从最早的能源，到转化为算力，再到转化为 Token，最终转化成实际的经济价值和 GDP，这里面应该形成一个可持续的、经济化的迭代链路。我们不仅要把国内的各种算力资源用起来，也在努力把这些能力输出到海外，让全球资源能够被打通和整合。

所以我认为，" 可持续 " 还有一层含义，就是希望把具有中国特色的 Token 经济学真正建立起来。

过去我们讲的是 Made in China。我们看到，中国能够把低成本、高效率的制造能力转化成优质商品，再输出到全球。那今天我们想做的，某种程度上可以理解为 AI Made in China：把中国在能源等方面的优势，通过 Token 工厂，可持续地转化成优质 Token，并输出到全球。

如果能够做到这一点，中国就有机会成为世界的 "Token 工厂 "。这也是我今年非常期待看到的——中国为全球人工智能发展所带来的独特价值。

张鹏：大家可能都在仰望星空，那我就稍微落地一点。如果让我讲未来十二个月里最关键、也最大的问题，我觉得关键词就是 " 算力 "。

因为刚才大家提到的这些技术进展，包括智能体框架，确实让很多人的创造力得到释放，效率也可能提升十倍。但前提是，大家得用得起、也用得上。如果因为算力不够，一个问题提出来以后，要等很久都得不到答案，那肯定是不行的。

也正因为这个原因，我们现在很多研究进展，包括很多原本想做的事情，其实都在一定程度上受到了限制。

我记得前两年，亚勤院士（编者注：张亚勤，中国工程院外籍院士、清华大学智能产业研究院院长）好像也在中关村论坛说过一句话，大意是：" 没卡没感情，谈卡伤感情。" 我觉得今天其实又有点回到了这个状态，只不过这次情况又不太一样。就像刚才提到的，我们现在已经进入了推理阶段，而之所以会转向推理阶段，是因为需求真的在爆发，而且是十倍、百倍地爆发。

刚才也提到，效率可能提升了十倍，但需求可能是一百倍，甚至还有大量需求根本没有被满足。那怎么办？这就需要我们大家一起来想办法了。