
抢夺 AI 时代的 " 定义权 "
作者 | 姚赟
来源 | 盒饭财经(ID:daxiongfan)
头图及封面来源 | 网络及即梦制作
不讨论其他,百度在趋势上的判断,一直是敏锐的。
5 月 13 日,Create2026 百度 AI 开发者大会召开。大会的开幕式上,李彦宏抛出了一个颇具 " 非共识 " 意味的判断:AI 时代的度量衡—— Daily Active Agents," 日活智能体数 ",简称 DAA。
在李彦宏看来,Token 只是代表成本并不代表收益,衡量的是投入而非产出;而 DAA 对应移动互联网时代通用度量衡日活用户数(DAU)。" 衡量一个平台和生态的繁荣,更应该关注 DAA 这个指标,关注有多少 Agent 在给人类干活,并交付结果。" 李彦宏表示。

与此相应的是投入端的 "Token"。
2025 年末,奥地利开发者 Peter Steinberger 的 " 周末项目 "Clawdbot(后改名 OpenClaw)悄然上线。没人预料到,到了 2026 年 3 月,其星标数突破 25 万,成为 GitHub 有史以来获星最多的开源项目。更没想到的是,这只 " 龙虾 " 无心插柳间,为一直拿着锤子找钉子的 AGI 探索出了一条新路。
OpenClaw 将过去 ChatGPT 代表的 " 你问我答 ",升级为了 " 你说我做 "。于是,Token 调用量就会指数级增加。
黄仁勋敏锐地捕捉到了变化,率先提出了 "Token 工厂 " 的概念。北京时间 3 月 17 日凌晨,2026 年英伟达 GTC 大会上,黄仁勋强调,在这个全新的 AI 时代,Token 就是新的基础货币。他还补充表示:生成 Token 的成本与效率直接决定了科技企业的营收与生死。

黄仁勋的 " 五层蛋糕 ",来源:英伟达官网截图
这套叙事逻辑严丝合缝:Token 是 AI 时代的 " 电力 ",卖铲子的人理应用 " 用了多少电 " 来衡量生态的规模。
对英伟达来说,Token 这一指标没什么问题。
作为全球 T0 级别的芯片供应商,英伟达的 Token 叙事,完全符合其行业位置。站在芯片和算力基础设施层,Token 消耗越多,GPU 卖得越多。Token,确实是完美的收入度量衡。
然而,李彦宏提出的 DAA,对百度来说,也没什么问题。
百度的 DAA,则是站在应用和生态层。对应用层的企业而言,Token 是成本,只有交付结果才算价值。于是,李彦宏提出 DAA 这样的产出侧的度量衡,非常合理。
起点不等于终点。DAA 的提出,打破了原有 Token 叙事的固定框架,引发了更深层的追问和思考。比如,Token 不行,那它是一个完美指标吗?Token 叙事与 DAA 叙事各自的逻辑与盲区又是什么?除了这俩,还有哪些评估框架和指标?AI 时代的 " 北极星指标 ",究竟该长什么样?

从 Token 到 DAA,总算迈出了第一步
李彦宏提出 DAA,是一种进步。
1 月 19 日,Gartner 发布了一份名为《Token Consumption Is a Misleading Indicator of AI Market Leadership》的报告。报告中明确指出,虽然 Token 消耗量常被 AI 厂商用于展示规模和市场地位,但它存在严重的局限性。这些局限性包括,缺乏业务价值关联、结构性误导等。
但,这并没有成为 Token 攻城略地的阻碍。
当 Token 被注意到后,其用量就迅速成为衡量企业在 AI 上变革程度的行业共识。3 月,阿里成立以 " 创造 Token、输送 Token、应用 Token" 为核心目标的 Alibaba Token Hub 事业群。58 同城的姚劲波曾在接受采访时表示:现在公司每天消耗接近 2000 亿 Token,很快会突破 3000 亿。他明确告诉团队:Token 用得越多越好,哪怕压力大,58 同城也会不计成本。
同时,Token 的调用情况,也成为国内新模型发布后的重要评估标准之一。
3 月 11 日,Hunter Alpha 悄然上线 OpenRouter,标注为 "stealth provider"(隐身提供者),没有任何厂商标识。其后,Hunter Alpha 连续数日登顶,引来外界的关注和猜想。19 日,小米认领了 Hunter Alpha,证实其为旗舰模型 MiMo-V2-Pro 的内部测试版本。

来源:OpenRouter 截图
而后,阿里也加入了这种新的发布形式。4 月上旬,一款名为 HappyHorse1.0 的匿名 AI 视频生成模型引发关注。第三方评测平台 Artificial Analysis 的 Video Arena 榜单上,超越字节跳动 Seedance 2.0、Google Veo 3 Fast 等视频模型,登顶文生视频、图生视频双赛道榜首。
不久,该模型被阿里 ATH 旗下创新事业部 " 认领 "。有不少观点认为:HappyHorse 的诞生,补足了阿里在视频生成模型上的空白,同时也是阿里云百炼平台撬动企业客户的战略入口,带动平台上的 Token 消耗。
甚至,Token 的使用量,成为一种很新的炫富方式。比如,每天消耗多少 Token、你能同时调度多少个 agent 运行、你的 token throughput(吞吐量)有多高,已成为工作和社交中的话题。
而李彦宏最核心的反驳点就是把叙事拉入到产出视角:Token 衡量的是 " 成本与投入 ",而不是 " 收益与产出 "。
Token 本质上类似于电力时代的 " 耗电量 " 或流量时代的 " 耗流量 ",它反映的是 AI 系统消耗了多少底层算力资源。单纯炫耀 Token 消耗量,等于在炫耀 " 我烧了多少钱、花了多少算力 ",这只能体现厂商的成本投入,却无法体现 AI 真正为用户创造了多少实际收益。
大模型爆发初期,AI 的应用还处于 Chatbot 阶段(聊天机器人),聊得越多自然 Token 消耗越大。但 Agent 时代,当 AI 的角色变成了一个 " 数字员工 ",那考核的点,则变成了它完成了多少事,任务完成度如何等等。
" 数字员工 ",也是员工。考核员工用耗电量,确实不合适,但所有 Agent 不分简易和完成质量,都抽象为 "1",也不合理。
比如,有两个 Agent:一个 Agent 的作用是,每天定时帮你查一下天气、或者发一条早安问候的;另一个则能够接入企业 ERP 系统,全自动分析库存、独立向供应商下订单并跟进物流。
在 DAA 的统计口径下,这两者贡献的日活都是 "1",这显然掩盖了两者在算力消耗、技术壁垒和商业价值上巨大的鸿沟。
同时,李彦宏提出 DAA 的初衷是强调 " 结果交付 ",但 DAA 这个指标本身只衡量了 " 活跃度 "。
比如,如果一个 Agent 每天被唤醒,但一直在产生 AI 幻觉、输出垃圾信息,或者在执行任务时陷入了死循环。从指标上看,它可能消耗了大量 Token,也贡献了一个完美的 DAA,但对用户来说,它不仅没有交付结果,反而帮了倒忙。
李彦宏提出的 DAA 解决了 " 出勤率 " 的问题,也有效地把大家的注意力从 " 卷模型参数、卷 Token 消耗 " 的军备竞赛中拉了出来,转而关注应用与落地。但对真正要付账单的企业来说,光是出勤是不够的。

走出 " 活跃 " 陷阱,还有很多第三选择
当英伟达说 " 万物皆 Token",百度说 " 万物须交付 " 时,还有一群指标不在这场商业叙事争夺战中。
2024 年 6 月 17 日,Sierra Research 与普林斯顿大学联合团队在 arXiv 上投下了一颗深水炸弹—— τ-bench(Tau-bench)基准测试。
τ-bench 与主观的人类打分不同,它通过对比对话结束后的数据库最终状态与预期的目标状态来客观判定任务是否成功。在测试中,它不再只关心一个 AI 智能体某一次任务成功了没有,而是通过连续追问,检验 " 连续 k 次任务,它能不能一次都不搞砸?" 。

Pass^k(连续 k 次全成功概率)是其首创的指标。

这个指标的严格程度,来自一道简单的数学题。比如,一个单次成功率 90% 的智能体,乍听起来相当不错。但如果让它连续独立完成 8 次任务,要求全部成功?答案:0.9^8 ≈ 43%。连续 20 次呢?约 12%。
它反映的是,智能体在面对对话随机性时的可靠性与一致性。对企业应用而言,偶尔的满分远不如持续的稳健表现重要。
而其的测试环境也是真实的商业场景:航空票务系统和零售客服。结果显示,即使当时最先进的 GPT-4o,在航空领域的单次成功率也不足 50%。
Anthropic 很快针对 τ-bench 的挑战,作出了回应。
2025 年 3 月前后,Anthropic 在相关的技术文章中,明确讨论了如何通过引入自主思考环节来解决 Agent 在处理复杂、多步骤任务时的可靠性问题。
同时,为在 τ-bench 的 Pass^k 指标上取得突破,Anthropic 在 Claude 模型中引入了 " 自我反思(Self-reflection/Self-correction)" 和 " 扩展思维链(Extended Chain-of-Thought)" 机制,以提升连续成功的稳定性。
这表明,Pass^k 已从一个 " 事后评估 " 的指标,演变为一个 " 事前驱动 " 的研发目标。
对于 Token 叙事和 DAA 叙事来说,τ-bench 都是一个有力的修正:它告诉英伟达,Token 消耗再多、跑得再快,不等于跑得稳;它也告诉百度,DAA 再多、交付次数再高,不等于交付质量可靠。单次可用不是本事,连续可靠才是门槛。
如 τ-bench 的 Pass^k 这样的指标,还有很多。
比如,同为衡量任务交付与绝对可靠性评估的指标。Pass^k 外,还有 TGC/GCR(任务目标完成率)、MTR(多步任务韧性)。
普林斯顿等论文《τ-bench》提出 Pass^k,指出 Pass@k,即试 N 次对 1 次就行,是自欺欺人,真实世界要求极高的稳定性。
白皮书《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》中提出了 GCR 和 MTR,则强调无论 Agent 中间怎么思考,必须扛住多步骤干扰,交付最终结果。

而以上,还只是属于产出导向的技术指标。

各评估指标导向与解决问题情况,来源:公开论文综合
当 Agent 进入企业生产环境,不能不计代价地追求 " 成功率 ",必须在多个维度之间做出妥协和平衡。
如果你是某企业的采购,现在需要采购某 AI 相关的产品。" 聪明度 " 可能是其中一个重要指标,但更看重的是综合性价比。比如,一个为了写对一段代码而消耗 10 美金算力、运行 5 分钟的 Agent,对比起来就不具有什么优势。
于是,论文《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems》中,给出了一个核心论点:如果仅死磕 " 准确率(Efficacy)",就会导致算力成本高出 4.4 倍到 10.8 倍。CLEAR 框架能更好地预测真实环境中的部署成功率。
CLEAR 框架内,包含了 Cost 成本、Latency 延迟、Efficacy 效能、 Assurance 保障、Reliability 可靠性等综合多维指标。
未来,连中层管理都是 AI,可能还要考核多智能体网络之间的团队协作,考核他们怎么开会。于是,Collaboration Score(协作评分)、AIx(自主性指数)也已在讨论中。
当然,最终商业的事,还是要回归到商业,所有的产品都将面临一个终极灵魂拷问:这玩意儿到底能不能帮公司省钱或者赚钱?alpha-value(Alpha 经济价值指标)、ROAI(AI 投资回报率)、BIE(商业影响效率)就会在这个维度出现。
再看上述度量衡,不难发现,从黄仁勋的 Token 到李彦宏的 DAA,或者 τ-bench 的 Pass^k 以及 ROAI,都在讲述一件事——不同角色正在给出不同的度量衡和解释。

不同对应角色和产业位置,来源:公开信息及论文综合
没有一种 " 万能指标 " 能同时满足所有人的诉求。
AI 价值的衡量,正在从一个 " 单点问题 " 演变为一个需要多维度协同的 " 评估网络 "。Token 和 DAA 分别抓住了输入与输出这两个角。而真正的 " 北极星 ",或许得在 AI 这张地图展开过大半,才能隐约清晰。
AI 时代的北极星悖论
演讲中,李彦宏将 DAA 与 DAU(日活用户数)进行了捆绑理解,"DAA 对应移动互联网时代通用度量衡日活用户数(DAU)。"
潜台词就是,DAA 是 AI 时代的 DAU。
确实,互联网的成功,很大程度上归功于它找到了一个完美的北极星指标:DAU。它是注意力的代理人,是广告变现的分母,更是网络效应的重力中心。
但在 AI 时代,这个刻度失灵了。今年 3 月,盒饭财经在《DAU 信徒的黄昏》一文中就 DAU 与 AI 时代的不适配进行了分析。
互联网黄金时代,DAU 几乎是商业价值的同义词。而这建立在几个非常稳固的假设之上:
第一,它是商业变现的底座。在互联网的商业模式里,几乎所有的收入公式都长这样:
广告收入 ≈ DAU × 人均使用时长 × 广告加载率 × 千次曝光单价
电商收入 ≈ DAU × 转化率 × 客单价
游戏收入 ≈ DAU × 付费率 × ARPU 值
在这个公式里,DAU 是一切的基础。人来了,才有后续的时长、曝光和转化。
也就是说,互联网的商业模式建立在 " 流量 - 广告 / 增值 " 上,用户活跃是价值源头。互联网时代,公式是:总价值 ≈ DAU(分母)× ARPU(人均产出值)。这个公式清晰、可审计,DAU 是商业换算的基准。
而李彦宏设想的是 " 每个智能体交付 = 一个交付单位的价值 ",从而推算产业规模。它的隐含公式是:产业总价值 ≈ DAA × 单位交付价值。这是想为 AI 时代创造一个类似 "ARPU" 的计算基石。
第二,能体现用的粘性与习惯,直观体现用户对你有多上瘾。DAU 里的 "D(Daily)" 是最致命的,它衡量的是习惯。如果一个 App 的 MAU(月活)很高,但 DAU 很低,说明用户只是偶尔想起你,如个税 App、订票 App;如果 DAU 很高,说明用户 " 长 " 在了你的产品里。
这种 " 日频 " 的依赖,构成了极高的竞争壁垒,让对手极难挖走用户。这也是互联网后期,为什么大家一直在说 " 高频打低频 " 是一种竞争壁垒。
第三,它是最简单的 " 共识 "。这是 " 北极星 " 最核心的作用:让公司上下力出一孔。对产品团队来说,DAU 是衡量功能成败的最终标尺。你做的改动,是把人引来了,还是把人赶走了?对技术团队来说,高 DAU 意味着高并发、高负载,稳定性就是生命线。技术优化的直接目标就是支撑更大的 DAU。
无论是程序员、产品经理、CEO 还是投资人,不需要任何复杂的解释,都能直接明白 " 今天有多少人用了我们产品 " 的价值。
第四,它定义清晰,不易造假。移动互联网时代,DAU 之所以被奉为神谕,是因为它抓住了一个不可逾越的物理现实:人类的时间是有限的。全球 80 亿人口,每人每天只有 24 小时,DAU 衡量的是对这种稀缺 " 注意力资源 " 的占有率。
" 一个独立用户今天是否活跃 ",是可以通过设备 ID、账号等手段客观、精确统计的。它简单、唯一,且由于绑定了真实身份,极难被大规模注水。
基于以上,如果要找到类似 AI 时代的 DAU,大致需要具备以下特质:
1. 产出导向,而非投入导向。这与 Gartner 报告所强调的核心原则一致——指标必须衡量 " 实现了什么 ",而非 " 消耗了什么 "。北极星指标必须站在价值创造的一端,而非资源消耗的一端。
2. 与商业变现直接挂钩。广告收入 ≈ DAU × 人均使用时长 × 广告加载率 × 单价。DAU 的增长直接意味着商业价值的增长。在这个公式里,DAU 是分母,也是底座。
3. 全员可对齐。产品优化提升 DAU、技术保障支撑 DAU、市场拉新贡献 DAU,全公司上下的努力都能汇聚到同一个数字上。它通过提供一个统一的标准,解决了部门之间目标不一致的问题。
4. 抗作弊的博弈性。客观可审计,定义清晰不易被操纵,它必须让 " 刷量 " 的成本高于 " 创造价值 " 的收益。
5. 价值可加总。一个 DAU 就是一个 DAU。无论是北京的用户还是上海的用户,无论是早上登录还是晚上登录,在计数上都是 "1",单位统一,可以放心地加总、比较、排名。
当我们用 DAA、Token 或者上述学术论文中提到的指标,来套用这套逻辑时,悖论出现了。
首先,DAA 缺乏 " 生理红线 "。一个人只能是一个 DAU,但一个开发者可以轻而易举地生成一万个智能体,并让它们在后台互相 " 活跃 "。如果 DAA 成为唯一的北极星,我们很快就会迎来一场数字世界的 " 通货膨胀 "。
同时,DAA 在 " 价值可加总 " 这一条上遭遇了致命的挑战。同一个 Agent 被打开和它在用户的真实工作中持续交付结果,两者创造的价值差很多。
在 " 客观可审计 " 层面,DAA 同样问题重重。
什么是 " 一个成功交付 "?什么是 " 一次任务闭环 "?如果定义权握在每个企业自己的手里,DAA 就不可能成为像 DAU 那样可以跨公司、跨行业比较的公允标准。这样的背景下,谁定义了 " 交付 ",谁就定义了 " 价值 "。
其次,前沿论文中,如 alpha-value 或 CLEAR 这样的硬核指标虽然精准,却输在了 " 共识成本 " 上。它们像是 " 体检报告 ",而不是 " 考试分数 "。一个优秀的北极星指标必须具备极低的理解门槛。企业落地需要的是一个简单、粗暴、能直接印在财报上的数字,而不是一套复杂的、需要专业实验室才能测算出来的成功率模型。
至此,我们可以为这场 " 定义权之争 " 画出一个清晰的棋局了。
黄仁勋的 Token 叙事满足了谁?满足了英伟达和芯片产业链,Token 消耗越多,GPU 卖得越多。但 Gartner 已经宣判:Token 对衡量 AI 市场领导力有误导性。

黄仁勋,来源:视频截图
李彦宏的 DAA 叙事满足了谁?满足了应用平台和生态商,DAA 越多,生态越繁荣。但价值可加总的缺失,使 DAA 更像一个 " 方向性旗帜 " 而非 " 可操作的会计准则 "。
学术界的 Pass^k、协作评分、ROAI 满足了谁?满足了工程师、架构师和 CFO 各自的需求。但它们各自只覆盖了北极星多项条件中的一两项。
" 完美的标准 " 往往出现在终局
DAU 并非一开始就存在。
互联网初期,衡量网站价值的标准非常简单粗暴,主要关注 " 曝光 " 和 " 内容消费量 "。比如,最早的 Hits(点击量),一个页面包含 10 张图片,用户打开一次就产生 11 个 Hits(10 个图片 +1 个页面)。
但这极易刷量。
随后,诞生了稍微科学一些的 PV(页面浏览量)。门户时代,更多的 PV 意味着可以展示更多广告位。当时的核心逻辑是 " 得流量者得天下 ",衡量的是内容被 " 看 " 了多少次,而非用户的意愿。
21 世纪初,互联网从门户时代迈向社交时代。这迫使大家重新思考什么才是产品价值的核心。以 MySpace 为代表的 Web 2.0 公司,核心指标是注册用户数,认为 " 注册的人越多,平台越成功 ",这导致平台上充斥着大量无人使用的 " 僵尸账户 "。
在此背景下,Facebook 进行了一场关键的认知战。
2004 年成立之初,Facebook 将核心指标从 " 注册 " 转向了活跃,内部最关注的不是新增注册量,而是 MAU(月活跃用户数),即有多少人真正回来使用了。最终,Facebook 凭借这个正确的 " 北极星指标 ",完成了对 MySpace 的华丽逆转。
随着行业的发展和企业案例的增加,互联网的这套指标愈加明确。
2007 年,500 Startups 创始人 Dave McClure 提出了增长模型 "AARRR 模型 ",清晰地展示了从用户获取到最终变现的过程。2010 年初," 增长黑客之父 "Sean Ellis 提出了 " 北极星指标 " 的概念。他强调,企业必须找到唯一一个能捕捉产品核心价值的指标,指引全公司朝同一方向努力。

从此,行业不再满足于单一数字,而是开始系统性地理解整个用户生命周期。
直到 2012 年后,移动互联网时代彻底爆发,核心指标开始在不同场景下裂变。DAU、MAU 成为通用标尺,时长、GMV 等指标在业务的分化中出现。同时,如抖音这样的短视频、内容 App 的核心指标演变为用户使用时长;如美团、淘宝这样的电商、生活服务 App 则更看重订单交易额(GMV)或支付笔数。
在人类管理学也好,互联网的发展史也好,从来没有一个指标是天生完美的。DAU 曾因注水被质疑,KPI 也因僵化一直被诟病,但它们都在特定的历史阶段,为混沌的商业世界提供了极其宝贵的 " 确定性 "。
那么,AI 时代,真的需要一个类似 DAU 的指标吗?不论是增长黑客、北极星指标,还是 "AARRR 模型 ",都是基于互联网的实践总结得出。基于互联网的经验,去寻找 AI 时代的衡量单位,是否也是一种刻舟求剑?
回到最初的争论:李彦宏提出的 DAA 完美吗?显然不是。
正如我们在论文和底层逻辑中探讨的那样,它依然带着流量时代的痕迹,面临着虚假繁荣与量化不均的挑战。但在 AI 产业的漫长演进中," 完美的标准 " 往往出现在终局,而 " 正确的方向 " 需要有人在迷雾中率先划下第一根火柴。
参考资料:
1.《Token Consumption Is a Misleading Indicator of AI Market Leadership》,https://www.gartner.com/en/documents/7346930
2.《盲测 " 屠榜 "、实测祛魅:Happy Horse 口碑分化 AI 视频三强 " 杀疯了 "》,每日经济新闻
3.《Gartner:Token 消耗是衡量 AI 市场领导力的误导性指标》,产业家
4.《Token 经济学:AI 时代的新货币战争》,硅谷 101
5.《用多少词元(Token),要被写进工资条了》,中国企业家杂志
6.https://github.com/sierra-research/tau-bench
7.《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》
8.《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》
9.《Towards a Standard, Enterprise-Relevant Agentic AI Benchmark》
10.《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise
Agentic AI Systems》
11.《李彦宏:DAA(日活智能体数)是 AI 时代的度量衡》,百度




登录后才可以发布评论哦
打开小程序可以发布评论哦