文 | 产业家,作者 | 斗斗,编辑 | 皮爷
中国市场,似乎总存在一种独特的 " 加速度 ",能够把原本停留在抽象层面的技术命题,迅速推入现实世界,接受真实场景的检验。互联网时代如此,AI 时代也更是如此。
这一特征,在 12 月初豆包与努比亚联合推出的努比亚 M153 上体现得尤为集中。
在这款设备中,AI 助手首次被赋予系统级执行权限,从调起外卖 App、规划出行路线,到整理文件、拆解任务并自主调度多个应用,其开始真正代替用户完成跨应用操作,AI 不再只是给建议,而是直接去做事。
而在当前的全球智能终端市场中,具备类似系统级自治执行能力的产品,几乎找不到可对照的案例。
也正因如此,产品发布仅两天,便在行业和用户层面引发了较高的讨论热度。除了关于 " 权限 " 的争议外,引发这场热议的核心原因恰是,一个长期存在于产业叙事中的抽象想象,第一次被具象化地呈现在公众面前,那就是 AI,正在从能 " 思考 ",迈向能 " 行动 "。
事实上,过去两年,围绕 AI Agent 的讨论从未停止。模型公司、终端厂商、应用平台都在反复强调 Agent 将重写数字经济的运行逻辑。然而,用户并没有获得实质性的体感。豆包手机一定程度上打破了这种距离感。如果说 ChatGPT 曾让全球用户第一次切身感受到 AI 会 " 思考 ",那么手机端 Agent 的出现,则第一次让人意识到,AI 开始真正介入行动本身。
但这也引出了更深层的问题。那就是为什么 AI 必须从 " 能思考 " 走向 " 能行动 "?又为什么,第一批具备行动能力的 AI,会率先出现在手机这一终端形态之上?
更关键的追问在于,随着一个可行动的 AI 被放到了聚光灯下,所有深埋在概念里的问题都被放到了台面上,建立于移动互联网上的一众高频场景,真的已经准备好迎接一个能够独立 " 行动 " 的 AI 吗?
而更大的悬念,来自中国市场本身。
在国际科技巨头普遍保持谨慎推进 Agent 的节奏下,中国市场以应用场景密度更高、用户接受度更强、线上线下服务链路更完整、治理体系更统一,客观上构成了一个 " 可以提前上路 " 的试验场。中国能否在这一轮变革中率先跑出来?
这些问题,既指向 AI Agent 的未来走向,也将影响着中国数字经济的下一个十年。
一、AI 价值共识:必须从 " 思考 " 迈向 " 行动 "
"思考 " 型 AI,正在遇到天花板。
OpenAI 的财务情况,是一个直接的信号。2024 年 Q1,其推理成本还只是略高于收入,但 2025 年 Q3,支出已经攀升到 36.5 亿美元,同期收入只有 20.6 亿美元。换言之,每赚 1 美元,就要在算力上花掉 1.8 美元,业务规模越大,亏损反而越深。

这种失衡,并不是个别公司的管理问题,而是由这一路径内在的成本结构所决定。随着模型越迭代越大、参数越多、推理链条越长,需要的计算资源就会快速上升,推理成本几乎是 " 往上蹿 " 的曲线。而收入端却受制于企业付费意愿和应用渗透节奏,只能缓慢爬坡。当 " 指数级的算力开支 " 遇到 " 线性增长的营收 ",商业模型就会变得很吃力。
承压的远不止 OpenAI。据 UBS 研究报告显示,自 2024 到 2025 年间,AI 基础设施领域的投资资金从 150 亿美元激增至 1250 亿美元,几乎增长了 8 倍,但相关企业的利润增长并未同步提升。
从商业视角看,这一现象指向的是同一个核心问题。那就是以 " 思考 " 为主的 AI,确实能为企业创造价值,但很难直接参与价值结算。当前大模型主流收费方式,仍以 Token 计价、调用次数计费为主,本质上仍是 API 生意,单位价值有限,且高度可替代。资本与产业对这种边界的感知,往往比技术社区更为敏锐。在既有形态下," 思考 " 型 AI 更像是一种效率工具,而非业务体系中不可或缺的生产要素。
于是,当这一轮 " 只会思考 " 的红利逐渐见顶,几乎所有头部玩家开始意识到,AI 下一个价值点不在 " 思考 " 能力,而在 " 行动 " 能力。
那么,谁能掌握 " 行动权 "?
其实,在传统的数字经济里," 行动权 " 主要集中于两类主体中,一类是操作系统和终端厂商,它们控制设备权限、系统入口、通知与前台展示;另一类是超级应用和平台公司,它们掌握着服务入口、交易链路以及用户关系。而在 AI 时代,Agent 作为新的技术载体,被推至台前,逐渐演化为跨应用、跨服务的调度中枢。
这也是为什么模型公司、平台公司、终端厂商虽然叙事各异,但在资源投入和战略重心上,最终都不约而同地指向 Agent。因为谁能占据这一调度层,谁就有机会在下一轮数字经济中,重新定义收费方式和价值分配逻辑。
在这一竞争中,手机成了一个绕不开的载体。
数据显示,中国成年用户平均每天使用手机约 6.2 小时,完成超过 120 次数字动作。支付、地图、出行、即时通讯等 95% 的高频任务,都发生在手机上。几乎所有与个人生活和工作相关的关键动作,都被压缩在这块小小的屏幕里。是用户 " 行动密度 " 最高的终端。
更关键的是,手机操作系统天然掌握着 AI 行动所需的应用安装和调用权限、前后台调度、身份认证、支付接口、系统级通知等,这些是一条 " 行动链路 " 的基础设施。
在这样的结构性条件下,手机终端顺理成章地成为各方验证 AI 商业价值的首要试验场,也成为 " 行动型 AI" 竞争中最先被点燃的战场。
二、Agent 伪命题背后:三方势力试水 "AI 执行 "
在 Agent 的方向逐渐清晰之后,企业开始 " 试水 ",其中有三方势力,进入了对 "AI 行动权 " 的争夺战场。
最先动起来的,是以阿里、百度、腾讯等为代表的基础模型服务商。
对模型服务商而言,最直接、也是成本最低的落点,必然是自身已经掌握的应用入口。以阿里的千问为代表,这类厂商普遍选择通过" 模型 + 自家应用生态 " 的方式承载 Agent 能力,即在一个统一的 AI 入口中,整合多模态、写作、代码与生活服务能力,并逐步打通云服务、电商与本地生活场景。生成的内容可以直接进入钉钉等,购物建议也能顺滑跳转到淘系完成交易,从而在单一 App 内形成相对完整的执行闭环。
这种路径的优势在于模型能力强、生态协同度高,Agent 可以在一个相对可控且在 App 层面充分放权的环境中尝试执行任务。但其边界同样明显,那就是应用层能力,其权限止步于 App 之外,无法调度系统级资源,行动范围天然受限。
当应用层的边界逐渐显露,产业的视角也随之向下移动至系统层。
这正是终端厂商集体入场的背景。OPPO、小米、vivo、荣耀几乎同时将 " 大模型 + 系统级助手 " 确立为 AI 手机的核心方向,无论是 OPPO 在 ColorOS 中提出的 "Agent Matrix",还是小米在澎湃 OS 中对 " 超级小爱 " 的重构,核心目标都是让 AI 在操作系统层完成任务拆解、编排流程,并实现跨应用完成执行。
相比模型厂商,终端厂商的优势在于其太天然掌握系统级权限,比如通知管理、前后台调度、悬浮窗、无障碍接口,这些都是 AI 行动的关键入口。但与此同时,它们也承载着更重的约束,即一旦系统级自动化失控,冲击的将是整个应用生态与用户体验。因此,大多数厂商采取的都是渐进式推进策略,在原有助手框架内,谨慎扩大自动执行的边界,而非直接释放一个高度自治的 Agent。
也正是在这种 " 有权限但不敢放开 " 的空隙中,原生 AI 厂商看到了另一种可能。
与模型厂商和终端厂商不同,豆包这类原生 AI 玩家既没有操作系统,也没有平台级生态,唯一的核心资产是模型能力。如果无法切入行动层,或将只能停留在 API 供应商的位置。因此,豆包选择了一条更为激进的路径,直接争夺系统层的行动入口。
不同于单纯做 App,豆包手机助手一开始就选择与中兴在 OS 层深度合作,让大模型以虚拟用户的方式操作手机界面。在 M153 工程机上,用户已经能直观看到一种更接近真实 Agent 的形态。
不过,其也迅速触碰到了现实阻力。当系统级 Agent 具备自主操作能力,应用方会本能地进入防御状态,通过权限、协议和风控策略限制自动行为。这背后既有合规需求,也有对既有流量结构和商业模式被重构的警惕。
综合来看,三条路径共同勾勒出当前 Agent 竞争的基本图景。模型厂商在 " 模型 + 自家生态 " 中做 Agent,有智力,但缺乏权限;终端厂商在 OS 层做 Agent,有权限,却必须优先维护生态稳定;原生 AI 厂商试图借系统合作直达行动中枢,野心最大,也最容易遭遇阻力。
表面上,Agent 之战比的是模型能力和交互体验。但真正决定成败的,并不在模型层或单一应用层,而是谁能在不打破既有秩序的前提下,为 AI 争取到足够的行动空间。不过就目前来看,在规则尚未重构之前,Agent 真正行动的幅度,注定有限。大多数探索仍被牢牢限制在各自的生态边界之内。
三、鲶鱼背后:一个正在推进的产业结构重塑
在豆包手机和这一轮 " 试水 " 过程中,更深层的体系性矛盾被集中暴露出来。
在既有数字体系中,操作权限天然绑定于人类用户之上。而当一个非人类智能体开始持续、规模化地发起操作。这套默认前提便不再成立。谁来界定 AI 能做什么、不能做什么。当 Agent 可以完成支付、下单、修改信息乃至直接参与交易时,权限的边界不再清晰,传统的授权逻辑随之松动。
随之而来的是商业模式的挑战。在依赖人类注意力的体系中,广告与推荐形成了稳定闭环;但当决策者变成 Agent,没有点击和停留,价值如何衡量,收益如何分配,迄今仍缺乏可复制的答案。
第三个问题是责任机制的缺位。当 AI 出现错误并造成损失,责任应由平台、模型、用户还是 Agent 本身承担,在法律与制度尚未完善之前,这一问题无法被回避。
从更底层的视角看,这些问题归根结底,其实都源于基础设施的缺失。
目前,大量应用仍只为人类操作而设计,缺乏标准化动作接口和可验证结果的能力,整个生态并没有为 AI" 动起来 " 做好准备。所以,AI Agent 面临的核心挑战不是技术不足,而是体系滞后。当围绕人类用户构建的规则逐渐失效,而新的行为主体已经入场,冲突几乎不可避免。
但也是这些冲突,正在倒逼产业链上的各方重新审视自己位置,并以不同姿态加速入场。
例如,智谱近期推出的 AutoGLM,已不只是一个对话系统,而是具备 "Phone Use" 能力的智能体产品,能够根据用户指令自动完成打开 APP、下单、选择支付等复杂操作,呈现出 AI Agent 执行真实任务的雏形。该技术甚至被业界视为,全球首个具备此类手机操作能力的开源代理模型。
与此同时,一些 SaaS 和 B 端服务,也在弱化复杂 UI,转而提供更清晰、可预测的指令化接口,本质上是在为 Agent 预留入口。
当越来越多的参与者开始围绕 " 如何让 AI 真正动起来 " 重构自身能力,Agent 时代便不再只是概念上的演进,而是逐步具备了现实发生的条件。
在此基础上,可以预见的并非一场简单的 " 替代 ",而是一轮长期的结构性迁移。Agent 的出现并不意味着推荐流或信息流广告会迅速消亡。无论是搜索、内容分发还是商品推荐。在执行任务前依然需要参考排序结果,但这套体系的服务对象,正在从 " 人 " 转向 "Agent"。
这一转变,将进一步引发 UI 价值的结构性重估。长期来看," 对人友好 " 的 UI 将持续贬值,尤其是在 B 端场景中;相反,动作语义清晰、接口稳定、结果可预期、可验证的服务,将逐步获得更高的调用权重。对 Agent 友好,正在成为新的基础能力。
而在这场重构中,并非所有市场都会以同样的速度适应。有些只能被动调整,有些则具备成为天然加速器的条件。
四、中国市场,在成为 AI 最好的试验田
放眼全球,AI 技术竞争正迅速进入白热化阶段。近两年,大模型在参数规模、推理能力和多模态表现上的进步速度明显加快。仅 2023 – 2024 年间,主流模型在 MMLU、GSM8K 等推理基准上的正确率提升幅度普遍超过 20 个百分点,多模态模型在图像、语音、视频理解上的能力也被不断刷新。模型能力的进化周期,已经从 " 以年计 " 压缩到 " 以月计 "。

在这一背景下,各国、各大科技公司几乎沿着同一条技术曲线前进。无论是模型规模、训练方法,还是推理优化路径,都在快速趋同,模型之间的能力差距正在被迅速拉平。
但当视角从能力竞争转向实际落地,分化开始显现。
AI Agent 的真正成立,所依赖的不只是模型智能,而是一整套可执行、可协同、可规模化的落地环境。一个事实是,能够承载 Agent 的市场,至少需要几个前提。比如,足够密集且标准化的服务场景,才能让任务被拆解并自动完成;完整的线上到线下闭环,才能让决策直接转化为现实结果;用户对自动化与代理行为的高度接受,才能让授权与信任成为常态;产业链之间足够快的协同能力,才能让接口、权限和规则不断迭代;以及一个能够推动标准逐步统一的治理体系,为 AI 行动划定安全边界。
正是在这些维度上,不同市场开始出现分化。
数据显示,美国用户月均使用 App 数约 40 – 45 个,而中国用户约 25 – 30 个;中国前 5 大超级 App 微信、支付宝、抖音等,占用户总使用时长大 60%,而美国前 5 大 App 使用时长占比不足 35%。
一个事实是,许多海外市场在服务结构、场景密度和系统协同上相对分散。应用碎片化、线上线下割裂、权限高度敏感,使得 AI 更多停留在建议者、助手的角色,很难自然过渡为真正的执行者。
而在中国市场,几乎是天然具备 AI Agent 所需的运行条件。
具体来看,高密度、可自动化的生活与商业服务,已经将大量现实行为压缩为标准流程。外卖、出行、零售、政务、金融等领域高度平台化,使得任务具备清晰接口。支付、履约、调度体系的全面数字化,使线上指令可以直接撬动线下结果。长期的产品演进,也显著提高了用户对自动化执行与代理行为的接受度。
与此同时,中国市场在模型、终端、App 与服务平台之间,具备快速联动和对齐的能力。这种能力并非来自单一企业,而是整个数字生态长期积累的结果。多重因素叠加,使得 AI Agent 不只是理论上可行,而是真正跑得下去。
也正是在这样的背景下,豆包手机所代表的 Agent 形态率先出现在中国,并非偶然。是市场条件成熟后的一次自然显现。当权限体系、服务接口、用户习惯与产业协同同时到位,AI Agent 才第一次以 " 可以日常使用 " 的形态出现。
从这个视角看,中国市场正在提供一块极具价值的试验田,用以验证 AI Agent 是否具备真正规模化运行的可能。而能够在这样的环境中跑通的厂商,未来输出到全球的,将不只是模型参数或单一产品形态,而是一整套围绕 AI 行动而重构的新 AGI 操作系统。
豆包手机,正是被打响的第一枪。


登录后才可以发布评论哦
打开小程序可以发布评论哦