Token消耗骤降75%，这个国产智能体做成了Codex最想做的事

本文系深潜 atom 第 1047 篇原创作品

当 " 更便宜了 " 成为显性传播标签时

DuMate 这次升级看点反而被遮蔽

李继伟丨作者

深潜 atom 工作室丨编辑

面对市场，现在所有通用 Agent 都在想，如何在保障智能体任务执行效果不受影响的前提下，将相同任务的 Token 消耗大幅降低了，从而增加任务完成率，提升用户使用使用。

最近，有一家产品做到了。他们一口气把用户的 Token 消耗降低了 75%。6 月 15 日，百度搭子 DuMate 宣布完成核心引擎升级：随着 Token 消耗大降，用户积分消耗也对应大幅下降。

但事实上，这次升级并非通过 " 让利 " 来完成，DuMate 的 Token 消耗下降，而是一次智能体工程能力的集中验证。其背后的 Harness 引擎升级、安全沙箱重构与执行链路优化，才是理解这次升级的关键。

用技术解决消耗，推动更多使用和落地，DuMate 可能已经在完成包括 Codex 等最想做的事。而这套思路正是不久前百度 Create 大会上李彦宏提出，智能体时代应该以 DAA（日活智能体数）来衡量的延续。依托新全栈 AI 云的基础设施升级，百度智能云或许正在改变未来通用智能体的竞争本质。

被误读的 75%：智能体为什么天然 " 贵 "，降本又靠什么

要理解这件事，得先回答一个大多数人没想过的问题：同样执行一个任务，智能体消耗的资源为什么远高于聊天机器人？

两者的工作模式有本质区别。聊天机器人是一问一答——用户输入问题，模型计算一次，输出结果，对话结束，Token 消耗极低。智能体则完全不同。以 DuMate 执行一次 " 整理三个月 AI 行业动态 " 为例，底层发生的操作至少包括：拆解目标为若干子任务、多轮关键词搜索、逐条阅读并判断相关性、交叉验证信息准确性、时间线排序与去重、补充缺失信息、格式化输出、自我检查修正遗漏。每一步都在消耗 Token。如果是跨表格数据分析或深度研究报告，步骤数量还会指数级增长。

这让智能体陷入一个天然矛盾：真正能干活，就必须走完这些步骤；走完这些步骤，就必然消耗大量计算资源。这个 " 贵 "，不是缺陷，而是智能体有能力完成复杂任务的自然代价。

因此，降低 Token 消耗的真正考验在于：不能靠 " 少干活 " 来节省成本。压缩步骤、减少工具调用、跳过多轮验证，这些粗暴手段会直接拉低任务质量。必须在不牺牲效果的前提下，让同一条执行链路跑得更高效。这是一个纯粹的工程问题，与模型参数大小或版本高低无关。

DuMate 的解决方案是 Harness 引擎——一套不直接面对用户的底层执行框架。如果把智能体比作一个干活的人，Harness 就是他的 " 工作方法论 "。当 DuMate 执行长达数小时甚至数天的任务时，Harness 负责四件事：动态规划与中途修正任务路径，避免一条道走到黑；精准管理上下文，该记住的记住、该丢弃的丢弃，防止无用信息占用 Token 预算；按最小化原则调度工具，不做多余动作；在数十甚至上百步的连续操作中，维持动作不变形。

简单来说，Harness 引擎就是让智能体 " 少走弯路、少说废话、少犯糊涂 "。同样的模型，放在不同的工程框架里，效率和成本能差出几倍。PinchBench 评测提供了直观对照——同一级别的模型，在 DuMate 框架中任务成功率达 93.3%，而在 Anthropic 和 OpenAI 的同款场景下分别为 89.0% 和 91.6%。模型是发动机，Harness 是变速箱和底盘。跑多快、跑多远，不只取决于马力。

这次 75% 的消耗下降，本质上意味着 Harness 这套方法论变得更成熟了。据团队披露，优化覆盖了三个核心模块：自研安全沙箱的性能优化、模型推理成本压缩、Harness 执行链路的升级。这三项全部是底层工程重构，而非前端的参数微调。这也是国内通用智能体产品中，首次通过 Harness 引擎及工程优化，实现任务消耗的大幅下降。

这组数据翻译成日常使用体验，其实很直白：让 DuMate 做同样一份调研报告、分析同样一张数据表、整理同样一批素材，消耗的积分只有过去的四分之一。它回应的不是 " 便宜了 " 的消费心理，而是智能体产品长期被压抑的一个刚需——不是 " 能不能干 "，而是 " 用不用得起 "。一个复杂任务动不动就花掉大量积分，用户每次使用前都要掂量值不值得，这种摩擦本身就在阻碍智能体成为日常工具。当成本降下来，" 偶尔试试 " 才有可能变成 " 日常依赖 "。

经济学家阿杰伊 · 阿格拉沃尔等人在《AI 极简经济学》中提出过一个核心观点：一项技术是否具有革命性，不在于它能实现多么炫酷的效果，而在于它能否将某种关键成本降到足以改变人们行为模式的程度。Token 消耗降低 75%，降低的正是 " 让智能体执行复杂任务 " 这件事的成本门槛。只有当这个门槛低到用户不再需要反复掂量 " 值不值 " 的时候，行为模式才会真正发生改变。

两个故事，同一件事：当 AI 从 " 会说话 " 变成 " 会干活 "

数据和技术的概念解读终究是有限的。更值得关注的，是优化后的产品在真实的人身上产生了什么变化。

长白山深处，70 岁的老万已经和红外相机打了半辈子交道。他在山林里布设了几十台设备，多年拍摄积累了超过 100TB 的野生动物影像素材。过去，他的难题从来不是拍摄，而是处理素材——每天要从数十小时的视频中，靠人眼逐帧筛选出有动物出现的画面。" 我现在看素材比拍摄都累，" 他说，" 一个一个看可不是简单的事，70 岁了，眼神不行了。"

老万没有任何编程经验，身边也没有技术团队。他使用 DuMate 的方式，就是一个普通人最本能的沟通——用说话。他的原话是：" 帮我把这段红外相机视频里有野生动物出现的画面挑出来，建个新文件夹，再按我平时的习惯整理一份监测日志。"

这句话到了 DuMate 手里，被自动拆解成一整套工作流：理解 " 野生动物画面 " 的筛选标准、在数小时视频中自动识别目标片段、提取归档，并按照老万过去的工作习惯生成监测日志。全程没有代码、没有参数、也不需要人工介入。

这个故事的核心，不是 " 一个老年人学会了用 AI"。恰恰相反，是AI 终于学会了用老年人的方式工作——理解一句大白话，规划一套流程，交付一个结果。过去用软件解决这类问题，用户需要学习写代码、配置参数、绘制流程图，本质上是人去适应机器的规则。老万的案例把这个关系反转了：机器去理解人的表达，执行层面的拆解和交付全部由系统完成。70 岁、零编程、100TB ——这三个数字摆在一起，比任何技术白皮书都更有说服力。

另一个故事发生在深圳的一间工作室里。栗噔噔曾是腾讯的产品经理，在职期间创办了一个滑雪服品牌并做到了规模化营收。现在她全职运营自媒体，是一个典型的 " 一人公司 " ——她要同时负责内容研究、选题策划、脚本撰写、视觉设计、商务对接等多项工作。

她曾算过一笔账：一个具备商业化能力的自媒体账号，正常运转至少需要覆盖五个岗位。一个人单干，产能天花板极低。她的解法不是雇人，而是将 AI 从 " 查资料的工具 " 重新定位为 " 首席运营官 "。

她让 DuMate 先学习自己 Obsidian 知识库里的内容资产，掌握其写作风格和知识体系；然后进行风格化仿写，完成初稿；接着自动适配公众号排版格式；再生成符合个人 IP 调性的封面图；最后同步至后台等待发布。这还没完——图文内容会被自动拆解为短视频脚本，通过视频生成工具完成二次产出。

全套流程只需五分钟。过去需要一个 10 人团队才能维持的内容运转体系，现在被压缩到一个人、一个 Agent、五分钟。栗噔噔发现，过去最消耗精力的并非写作本身，而是排版、做封面、格式转换这些机械环节。当它们被 DuMate 自动化之后，她只需要对内容做最终把关。

两个故事指向了同一件事：DuMate 不是在替代人的某项技能，而是在消除 " 一个人不够用 " 这个结构性困境。而当 Token 消耗下降 75% 之后，这种消除的成本变得更低、频率可以更高。老万可以每天都让 DuMate 筛选新素材，而不必数着积分过日子；栗噔噔则可以把更多精力放在创意和决策上，而不是被排版、做图、格式转换这些机械环节吃掉时间。

过去一年，大多数人对 AI 的印象停留在 " 它能写文章 "" 它能做 PPT"" 它能画图 " ——这是功能视角。功能视角的问题是，你会不断追问 " 能不能做得更好 "" 能不能多一个新功能 "，然后被大模型发布会的节奏牵着走。但老万和栗噔噔的故事提示了另一种视角：Agent 真正的价值不在功能列表里，而在它能重新定义一个人能做的事的半径。70 岁老人能独立管理 100TB 影像资产，一个人能跑起一支 10 人团队的内容产线——当 " 一个人的组织能力 " 被 Agent 重新标定，追问 " 还有什么新功能 " 已经没那么重要了。

《AI 极简经济学》中有一个反复出现的洞见：当某种能力变得廉价，它的互补品就会升值。Agent 把 " 执行 " 变便宜了，于是 " 判断 " ——决定做什么、做到什么程度、最终是否满意——反而变得更值钱。栗噔噔不再把时间耗在排版和封面上，但她对内容风格的把控、对选题的判断、对读者需求的感知，这些 Agent 替代不了的东西，恰恰成了她一人公司真正的壁垒。老万也一样：DuMate 替他看完了 100TB 的素材，但他对 " 什么画面值得拍 "" 什么时候该进山 " 的判断，反而因为释放了精力而变得更有余裕。

从模型战争到工程深耕：这次升级对 AI 用户意味着什么

过去一年，国内 AI 行业的主流叙事高度集中在 " 新模型发布 " 上。谁的参数更大、谁的跑分更高、谁的多模态更强——每次更新都被包装成颠覆性事件，节奏越来越快。

但在这条主线之外，有一条平行线索正被大多数人忽视：工程能力的持续积累。Token 消耗降低 75%，在发布会的叙事逻辑里或许只是一行小字。但对真实用户而言，它的体感比一个新功能更具体——因为每一次任务都在发生，每一次消耗都是真实的成本。

DuMate 自 3 月 22 日正式上线以来，经历了 " 一天一版 " 的快速迭代。外界看到的成果是 PinchBench 登顶、DeepResearch Bench 第一、月访问量以 114.72% 的增速登上 AI 产品榜。但这些成绩背后，是一套持续优化任务规划、工具调用、执行稳定性和成本控制的工程体系在默默支撑。Token 消耗降低 75% 并非一次孤立的版本更新，而是这条持续优化曲线上一个可被量化的新坐标。

百度众多 AI 产品过去几年见证了行业发展的完整周期。而 DuMate 的持续迭代，正在传递一个不同于 " 模型军备竞赛 " 的叙事：当行业注意力都集中在参数和跑分上时，百度选择了另一条路——在 Agent 的工程交付层面构建能力壁垒。从 " 能回答 " 到 " 能干活 "，再从 " 能干活 " 到 " 能稳定、低成本地干活 "，每一步都不够华丽，但每一步都在将 AI 从实验室演示推向真实的工作场景。

放在更大的坐标系里看，DuMate 的这次引擎升级，触碰了一个 Agent 行业绕不开的底层命题：通用智能体的竞争，终局不取决于谁家的模型参数更大、跑分更高，而取决于谁能把 " 执行复杂任务 " 这件事做得足够可靠、足够经济、足够日常。Token 消耗降低 75% 是一个技术指标，但它背后更值得关注的逻辑是——在不牺牲质量的前提下系统性压缩成本，这正是 Agent 从 " 惊艳的 Demo" 迈向 " 生产级工具 " 必须跨过的那道坎。

《AI 极简经济学》的三位作者提醒过：技术改变的是工具，不变的是经济规律。Token 消耗下降 75% 真正的长期意义，不在于用户 " 省了积分 "，而在于它重新标定了 " 一个人 + 一个 Agent" 这个生产单元的成本结构。当这个结构的运行成本降到足够低，一人公司、超级个体就不再只是少数先行者的实验，而会成为可规模化扩散的新常态。

过去两年，AI 行业制造了足够多的 " 惊艳瞬间 "。但下一个阶段真正稀缺的，不是又一个让人惊叹的能力展示，而是让用户用完一次后，明天还愿意打开、舍得打开、想得起打开的产品。

DuMate 将成本削减了四分之三，本质上是在为这个 " 明天 " 铺路。当整个行业开始从 " 制造惊叹 " 转向 " 培养习惯 "，AI 才算真正走完了从实验室到日常的最后一段路。

从这个意义上说，DuMate 的这次引擎升级也是一次有力的回应。过去几年，外界对百度 AI 的判断常常在两级之间摇摆——要么是聚光灯下的过高期待，要么是低谷期的全盘否定。但工程能力不靠发布会证明，它靠的是把一件事反复做、持续做，在无人注意的细节里一寸一寸地打磨。Token 消耗降低 75% 就是这种 " 磨 " 出来的结果：不动声色，却极度硬核。这才是技术公司该交出的答卷，也是百度对未来赛道判断的最有利支撑。

宙世代

一起剪

相关标签