本文系深潜 atom 第 1047 篇原创作品
"
当 " 更便宜了 " 成为显性传播标签时
DuMate 这次升级看点反而被遮蔽
李继伟丨作者
深潜 atom 工作室丨编辑
面对市场,现在所有通用 Agent 都在想,如何在保障智能体任务执行效果不受影响的前提下,将相同任务的 Token 消耗大幅降低了,从而增加任务完成率,提升用户使用使用。
最近,有一家产品做到了。他们一口气把用户的 Token 消耗降低了 75%。6 月 15 日,百度搭子 DuMate 宣布完成核心引擎升级:随着 Token 消耗大降,用户积分消耗也对应大幅下降。
但事实上,这次升级并非通过 " 让利 " 来完成,DuMate 的 Token 消耗下降,而是一次智能体工程能力的集中验证。其背后的 Harness 引擎升级、安全沙箱重构与执行链路优化,才是理解这次升级的关键。
用技术解决消耗,推动更多使用和落地,DuMate 可能已经在完成包括 Codex 等最想做的事。而这套思路正是不久前百度 Create 大会上李彦宏提出,智能体时代应该以 DAA(日活智能体数)来衡量的延续。依托新全栈 AI 云的基础设施升级,百度智能云或许正在改变未来通用智能体的竞争本质。
被误读的 75%:智能体为什么天然 " 贵 ",降本又靠什么
要理解这件事,得先回答一个大多数人没想过的问题:同样执行一个任务,智能体消耗的资源为什么远高于聊天机器人?
两者的工作模式有本质区别。聊天机器人是一问一答——用户输入问题,模型计算一次,输出结果,对话结束,Token 消耗极低。智能体则完全不同。以 DuMate 执行一次 " 整理三个月 AI 行业动态 " 为例,底层发生的操作至少包括:拆解目标为若干子任务、多轮关键词搜索、逐条阅读并判断相关性、交叉验证信息准确性、时间线排序与去重、补充缺失信息、格式化输出、自我检查修正遗漏。每一步都在消耗 Token。如果是跨表格数据分析或深度研究报告,步骤数量还会指数级增长。
这让智能体陷入一个天然矛盾:真正能干活,就必须走完这些步骤;走完这些步骤,就必然消耗大量计算资源。这个 " 贵 ",不是缺陷,而是智能体有能力完成复杂任务的自然代价。
因此,降低 Token 消耗的真正考验在于:不能靠 " 少干活 " 来节省成本。压缩步骤、减少工具调用、跳过多轮验证,这些粗暴手段会直接拉低任务质量。必须在不牺牲效果的前提下,让同一条执行链路跑得更高效。这是一个纯粹的工程问题,与模型参数大小或版本高低无关。
DuMate 的解决方案是 Harness 引擎——一套不直接面对用户的底层执行框架。如果把智能体比作一个干活的人,Harness 就是他的 " 工作方法论 "。当 DuMate 执行长达数小时甚至数天的任务时,Harness 负责四件事:动态规划与中途修正任务路径,避免一条道走到黑;精准管理上下文,该记住的记住、该丢弃的丢弃,防止无用信息占用 Token 预算;按最小化原则调度工具,不做多余动作;在数十甚至上百步的连续操作中,维持动作不变形。
简单来说,Harness 引擎就是让智能体 " 少走弯路、少说废话、少犯糊涂 "。同样的模型,放在不同的工程框架里,效率和成本能差出几倍。PinchBench 评测提供了直观对照——同一级别的模型,在 DuMate 框架中任务成功率达 93.3%,而在 Anthropic 和 OpenAI 的同款场景下分别为 89.0% 和 91.6%。模型是发动机,Harness 是变速箱和底盘。跑多快、跑多远,不只取决于马力。
这次 75% 的消耗下降,本质上意味着 Harness 这套方法论变得更成熟了。据团队披露,优化覆盖了三个核心模块:自研安全沙箱的性能优化、模型推理成本压缩、Harness 执行链路的升级。这三项全部是底层工程重构,而非前端的参数微调。这也是国内通用智能体产品中,首次通过 Harness 引擎及工程优化,实现任务消耗的大幅下降。
这组数据翻译成日常使用体验,其实很直白:让 DuMate 做同样一份调研报告、分析同样一张数据表、整理同样一批素材,消耗的积分只有过去的四分之一。它回应的不是 " 便宜了 " 的消费心理,而是智能体产品长期被压抑的一个刚需——不是 " 能不能干 ",而是 " 用不用得起 "。一个复杂任务动不动就花掉大量积分,用户每次使用前都要掂量值不值得,这种摩擦本身就在阻碍智能体成为日常工具。当成本降下来," 偶尔试试 " 才有可能变成 " 日常依赖 "。
经济学家阿杰伊 · 阿格拉沃尔等人在《AI 极简经济学》中提出过一个核心观点:一项技术是否具有革命性,不在于它能实现多么炫酷的效果,而在于它能否将某种关键成本降到足以改变人们行为模式的程度。Token 消耗降低 75%,降低的正是 " 让智能体执行复杂任务 " 这件事的成本门槛。只有当这个门槛低到用户不再需要反复掂量 " 值不值 " 的时候,行为模式才会真正发生改变。
两个故事,同一件事:当 AI 从 " 会说话 " 变成 " 会干活 "
数据和技术的概念解读终究是有限的。更值得关注的,是优化后的产品在真实的人身上产生了什么变化。
长白山深处,70 岁的老万已经和红外相机打了半辈子交道。他在山林里布设了几十台设备,多年拍摄积累了超过 100TB 的野生动物影像素材。过去,他的难题从来不是拍摄,而是处理素材——每天要从数十小时的视频中,靠人眼逐帧筛选出有动物出现的画面。" 我现在看素材比拍摄都累," 他说," 一个一个看可不是简单的事,70 岁了,眼神不行了。"
老万没有任何编程经验,身边也没有技术团队。他使用 DuMate 的方式,就是一个普通人最本能的沟通——用说话。他的原话是:" 帮我把这段红外相机视频里有野生动物出现的画面挑出来,建个新文件夹,再按我平时的习惯整理一份监测日志。"
这句话到了 DuMate 手里,被自动拆解成一整套工作流:理解 " 野生动物画面 " 的筛选标准、在数小时视频中自动识别目标片段、提取归档,并按照老万过去的工作习惯生成监测日志。全程没有代码、没有参数、也不需要人工介入。
这个故事的核心,不是 " 一个老年人学会了用 AI"。恰恰相反,是AI 终于学会了用老年人的方式工作——理解一句大白话,规划一套流程,交付一个结果。过去用软件解决这类问题,用户需要学习写代码、配置参数、绘制流程图,本质上是人去适应机器的规则。老万的案例把这个关系反转了:机器去理解人的表达,执行层面的拆解和交付全部由系统完成。70 岁、零编程、100TB ——这三个数字摆在一起,比任何技术白皮书都更有说服力。
另一个故事发生在深圳的一间工作室里。栗噔噔曾是腾讯的产品经理,在职期间创办了一个滑雪服品牌并做到了规模化营收。现在她全职运营自媒体,是一个典型的 " 一人公司 " ——她要同时负责内容研究、选题策划、脚本撰写、视觉设计、商务对接等多项工作。
她曾算过一笔账:一个具备商业化能力的自媒体账号,正常运转至少需要覆盖五个岗位。一个人单干,产能天花板极低。她的解法不是雇人,而是将 AI 从 " 查资料的工具 " 重新定位为 " 首席运营官 "。
她让 DuMate 先学习自己 Obsidian 知识库里的内容资产,掌握其写作风格和知识体系;然后进行风格化仿写,完成初稿;接着自动适配公众号排版格式;再生成符合个人 IP 调性的封面图;最后同步至后台等待发布。这还没完——图文内容会被自动拆解为短视频脚本,通过视频生成工具完成二次产出。
全套流程只需五分钟。过去需要一个 10 人团队才能维持的内容运转体系,现在被压缩到一个人、一个 Agent、五分钟。栗噔噔发现,过去最消耗精力的并非写作本身,而是排版、做封面、格式转换这些机械环节。当它们被 DuMate 自动化之后,她只需要对内容做最终把关。
两个故事指向了同一件事:DuMate 不是在替代人的某项技能,而是在消除 " 一个人不够用 " 这个结构性困境。而当 Token 消耗下降 75% 之后,这种消除的成本变得更低、频率可以更高。老万可以每天都让 DuMate 筛选新素材,而不必数着积分过日子;栗噔噔则可以把更多精力放在创意和决策上,而不是被排版、做图、格式转换这些机械环节吃掉时间。
过去一年,大多数人对 AI 的印象停留在 " 它能写文章 "" 它能做 PPT"" 它能画图 " ——这是功能视角。功能视角的问题是,你会不断追问 " 能不能做得更好 "" 能不能多一个新功能 ",然后被大模型发布会的节奏牵着走。但老万和栗噔噔的故事提示了另一种视角:Agent 真正的价值不在功能列表里,而在它能重新定义一个人能做的事的半径。70 岁老人能独立管理 100TB 影像资产,一个人能跑起一支 10 人团队的内容产线——当 " 一个人的组织能力 " 被 Agent 重新标定,追问 " 还有什么新功能 " 已经没那么重要了。
《AI 极简经济学》中有一个反复出现的洞见:当某种能力变得廉价,它的互补品就会升值。Agent 把 " 执行 " 变便宜了,于是 " 判断 " ——决定做什么、做到什么程度、最终是否满意——反而变得更值钱。栗噔噔不再把时间耗在排版和封面上,但她对内容风格的把控、对选题的判断、对读者需求的感知,这些 Agent 替代不了的东西,恰恰成了她一人公司真正的壁垒。老万也一样:DuMate 替他看完了 100TB 的素材,但他对 " 什么画面值得拍 "" 什么时候该进山 " 的判断,反而因为释放了精力而变得更有余裕。
从模型战争到工程深耕:这次升级对 AI 用户意味着什么
过去一年,国内 AI 行业的主流叙事高度集中在 " 新模型发布 " 上。谁的参数更大、谁的跑分更高、谁的多模态更强——每次更新都被包装成颠覆性事件,节奏越来越快。
但在这条主线之外,有一条平行线索正被大多数人忽视:工程能力的持续积累。Token 消耗降低 75%,在发布会的叙事逻辑里或许只是一行小字。但对真实用户而言,它的体感比一个新功能更具体——因为每一次任务都在发生,每一次消耗都是真实的成本。
DuMate 自 3 月 22 日正式上线以来,经历了 " 一天一版 " 的快速迭代。外界看到的成果是 PinchBench 登顶、DeepResearch Bench 第一、月访问量以 114.72% 的增速登上 AI 产品榜。但这些成绩背后,是一套持续优化任务规划、工具调用、执行稳定性和成本控制的工程体系在默默支撑。Token 消耗降低 75% 并非一次孤立的版本更新,而是这条持续优化曲线上一个可被量化的新坐标。
百度众多 AI 产品过去几年见证了行业发展的完整周期。而 DuMate 的持续迭代,正在传递一个不同于 " 模型军备竞赛 " 的叙事:当行业注意力都集中在参数和跑分上时,百度选择了另一条路——在 Agent 的工程交付层面构建能力壁垒。从 " 能回答 " 到 " 能干活 ",再从 " 能干活 " 到 " 能稳定、低成本地干活 ",每一步都不够华丽,但每一步都在将 AI 从实验室演示推向真实的工作场景。
放在更大的坐标系里看,DuMate 的这次引擎升级,触碰了一个 Agent 行业绕不开的底层命题:通用智能体的竞争,终局不取决于谁家的模型参数更大、跑分更高,而取决于谁能把 " 执行复杂任务 " 这件事做得足够可靠、足够经济、足够日常。Token 消耗降低 75% 是一个技术指标,但它背后更值得关注的逻辑是——在不牺牲质量的前提下系统性压缩成本,这正是 Agent 从 " 惊艳的 Demo" 迈向 " 生产级工具 " 必须跨过的那道坎。
《AI 极简经济学》的三位作者提醒过:技术改变的是工具,不变的是经济规律。Token 消耗下降 75% 真正的长期意义,不在于用户 " 省了积分 ",而在于它重新标定了 " 一个人 + 一个 Agent" 这个生产单元的成本结构。当这个结构的运行成本降到足够低,一人公司、超级个体就不再只是少数先行者的实验,而会成为可规模化扩散的新常态。
过去两年,AI 行业制造了足够多的 " 惊艳瞬间 "。但下一个阶段真正稀缺的,不是又一个让人惊叹的能力展示,而是让用户用完一次后,明天还愿意打开、舍得打开、想得起打开的产品。
DuMate 将成本削减了四分之三,本质上是在为这个 " 明天 " 铺路。当整个行业开始从 " 制造惊叹 " 转向 " 培养习惯 ",AI 才算真正走完了从实验室到日常的最后一段路。
从这个意义上说,DuMate 的这次引擎升级也是一次有力的回应。过去几年,外界对百度 AI 的判断常常在两级之间摇摆——要么是聚光灯下的过高期待,要么是低谷期的全盘否定。但工程能力不靠发布会证明,它靠的是把一件事反复做、持续做,在无人注意的细节里一寸一寸地打磨。Token 消耗降低 75% 就是这种 " 磨 " 出来的结果:不动声色,却极度硬核。这才是技术公司该交出的答卷,也是百度对未来赛道判断的最有利支撑。


登录后才可以发布评论哦
打开小程序可以发布评论哦