豆包AI 手机风波之后，能不能有点儿共识？

12 月 1 日，豆包手机助手上线。

它偷了蚂蚁森林能量，成功了；它在 B 站答题领会员，全程自动操作；有人让它 " 把昨天拍的照片在微信上发给我妈 "，搞定了。

不到两天，它就被微信屏蔽了。支付宝、淘宝、美团等等，随即先后屏蔽了豆包手机助手打开它们的 App。

风波未平，AI 创业公司智谱又上场了。12 月 9 日深夜，智谱开源了 AutoGLM，口号响亮：" 让每台手机都成为 AI 手机，AI 手机不该掌握在少数厂商手中 "，拉高了一波 AI 手机概念股。

在《OpenAI 和豆包栽在了同一个问题》一文中我说过：接下来你会看到更多的 " 手机助手 " 试图打开你的微信、抖音和支付宝。没想到这么快就来了。

豆包手机助手的兴奋感已经传到了大洋彼岸，有开发者在 X 上说：" 这是我见过第一个真正能用的 AI 手机助手，不是 Siri 那种‘帮你设个闹钟’的玩具级功能，是真的能跨应用完成复杂任务链。"

它展示了一个强大的 GUI Agent 的真正潜力——不需要 App 开放 API，Agent 直接 " 看 " 屏幕理解界面；不需要人工训练每个 App 的操作路径，Agent 自主学习，跨应用无缝切换，完成一个完整任务链。

难怪 X 上也有评论说：" 这是 iPhone 问世以来，手机交互方式最大的一次革命 "。

豆包手机助手证明：GUI Agent 作为一种产品形态，是成立的，用户需求也是真实的，搭载了豆包助手的 Nubia M153 工程机在闲鱼上的热销，超过 99% 天天上播客和 demo day 的 AI 创业项目。

而智谱 AutoGLM 的开源，在豆包把市场教育完，也把雷点踩完之后，以 " 开源英雄 " 的人设，收割了一把关注度和认知。

它用了一种更 " 高明 " 的办法：ADB+ 视觉识别方案，在 " 云手机 " 的虚拟环境里操作，操作手机的方式更隐蔽，它无需获得更高级别的手机系统权限，模拟的是人类用手指点击屏幕的行为，平台风控很难区分是真人还是 AI。

AutoGLM 还借此享受了一把开源的声誉红利，但不用承担任何产品的法律风险——用户怎么部署是他们的事。问题是：配置 ADB、开发者模式、部署 9B 的推理模型，这事儿普通人是搞不定的。闲鱼上已经有人卖 "100 元代部署 AutoGLM 服务 " 了。

恕我直言，我觉得智谱 AutoGLM 开源对推动智能手机的 AI 化意义相当有限。

比起豆包是真的想让一部分人先用上一部 "AI 原生 " 的手机，AutoGLM 更多的是秀了一把肌肉，收割了一波注意力，以及提供了一种看似目前可以绕开微信、支付宝和美团们 " 封禁 "，然则终将被堵上的技术漏洞。现在已经有开发者出来报错了：自己部署的 AutoGLM，被微信封了。

该没解决的问题，一个也没解决。Super Agent 和 Super App 之间的关系，一点儿也没理顺。

一句话，AI 手机怎么搞，需要产业的广泛共识，需要 Super Agent 和 Super App 之间的共识。

中国移动生态太发达了，互联网巨头们围绕着 App 建立起来的流量、护城河、生态和利益太丰富了，它已经成为了推动手机 AI 化的 legacy ——打破任何一点现在的格局，都让巨头们难受。

但该来的，还是要来。

第一个问题：能不能有 AI Agent 认证体系？

豆包助手暴露的问题是：努比亚授权了 AI 能用系统级权限，但 App 厂商不认。

中间缺少的环节是：谁能授权 AI 操作第三方 App?

模拟用户的点击、滑动、输入，是豆包从努比亚获得的授权。从技术角度看，这是手机操作系统赋予的合法能力。但微信的用户协议明确禁止 " 外挂软件 "，任何模拟用户操作的行为都属于违规。

这个时候，为什么不能有一个 "AI 代理操作认证体系 " 呢？就像网站有 SSL 证书证明身份和安全性，AI Agent 为什么不能有一个 " 可信代理 " 认证体系呢？

至少，它能解决三个问题：第一，证明 AI 的身份——谁家的 AI，什么技术架构；第二，证明 AI 的授权——用户让我干什么，授权范围是什么，有没有超出授权；第三，证明 AI 的安全性——不会乱来，有安全措施，有操作日志，有责任保险。

当年支付宝刚出来的时候，银行也不舒服，觉得你凭什么代替我跟用户交互？这是我的客户，你凭什么中间过一道？后来，有了第三方支付牌照，问题就解决了。规则是：满足这些条件，你就能做第三方支付；不满足，就不能做。银行可以对接，也可以拒绝，但是要有一套通行的依据。

同理，AI Agent 也需要这样一个 " 代理操作认证 " 体系，它未必是一张牌照，而是一套通行的技术标准。不是谁都能随便模拟用户操作，但只要你符合标准，通过认证，平台就不能无理由拒绝。

别再争了各位。美国人是最擅长制定这种技术共识标准的，我们达不成共识，最后就还得用 OpenAI 和 Anthropic 制定的标准。

第二个问题，能不能把最高权限交给用户 ?

聊天记录、支付记录、打车订单，所有权、使用权、授权权分别是谁的 ?

App 可以认为：用户的数据在我平台上，是我的资产。我投入了服务器、带宽、运维成本，提供了免费服务，数据当然有我的权益。而且用户协议里写了，用户授权我使用这些数据来改进产品、推送广告。

用户觉得：这是我的隐私，我的聊天内容，我跟朋友的对话，凭什么不能给我自己的 AI 看 ? 我授权 AI 帮我整理聊天记录、提取重要信息、提醒我未读消息，这是我的权利。

AI 模型和 Agent 提供者认为：用户授权了，我就可以读取、分析、使用这些数据来提供服务。我不会泄露给第三方，不会用于训练模型（除非用户同意），我只是代表用户行使他 / 她的权利。

这个时候，明确 " 数据所有权归用户 " 的至高原则是非常重要的，它决定了一切用户授权、AI 代理和 App 安全防范机制的基础。

这意味着以下几点：

用户在平台上产生的内容、行为数据，归根结底属于用户本人，平台提供服务，但不拥有用户的数据。

数据使用权可以授权，平台有权使用数据提供服务（比如推荐算法、个性化广告），这是用户协议中约定的，但用户也有权授权第三方 AI 使用数据，这两个授权之间不应该冲突。

平台有安全审查权，但不能无理由拒绝，如果 AI 通过了认证，证明了安全性，就不该轻易被拒绝。

第三个问题，能不能重新创造商业模式？

Super Agent 动了 Super Apps 的蛋糕，这简直是一定的。

因为人的浏览行为被 Agent 取代，推荐算法带来的注意力机制会被颠覆。这样，广告收入会被影响，流量分发的收入来源也会被影响，甚至会员收入也被影响。

但 Super Agent 自己呢？如果它的存在只是削弱了平台的收入，而自己的 GPU 算力、模型研发和优化等成本又居高不下，久而久之，无人从这场变革中受益，这个游戏就玩不下去了，就会变成双输或者多输的游戏。

在这种情形下，重新想象和创造商业模式就是很重要的。

OpenAI 跟亚马逊现在关系很紧张，但它与沃尔玛的合作是一个不错的例子。现在沃尔玛 36% 的线上流量来自 OpenAI，尽管现在没有听说它们之间又什么分成计划，但这件事不值得想象么？这就好比是搜索引擎的 CPC（按点击付费）模式：每一个通过 ChatGPT 引导到沃尔玛的用户，沃尔玛付给 OpenAI 一笔费用。

再比如 Agent 的订阅费用——如果 Agent 购物真的能给一个用户每年省 2000 元人民币的话，一个月收 20 元的订阅费不过分吧？这笔钱，Super Agent 是应该分一部分给 Super Apps 的。就像爱奇艺的会员用户可以付费跳广告，YouTube 从订阅费里分成给创作者，是一个道理。

此外，增值服务分层设计是不是可行？基础功能免费，但限制次数，只能用于常规任务。如果用户真的有强烈意愿，让 Super Agent 操作微信自动回复、支付宝账单管理、滴滴会员卡管理等高级功能的话，还是要为高级功能付费的——也就是执行复杂任务链、跨平台操作，处理敏感信息私有信息，甚至企业定制化等高级功能，都得收钱，这个钱要跟 Super App 分成。

这个问题不解决，平台就会一直抵制，这也是可以理解的。

第四个问题，能不能推广沙盒确认和分级确认的安全机制？

把 " 我爱你 " 发给了男老板而不是女朋友，要转 100 元结果转了 10000 元，Agent 误删重要聊天联系人，清理垃圾文件把重要工作文档也删了 …… 这些事如果出现，责任是谁的？

很多人忽略了，AI 犯错的成本，往往比人犯错更高——因为 AI 操作速度快，一秒钟能完成人需要一分钟完成的任务，出错了也是大规模出错，人想挽回都做不到，标准的手慢无。

AI 被黑客了怎么办？钓鱼邮件和诈骗电话能骗人，就一定骗不了 AI？AI 一定比老头老太太反诈意识更强？AI 在社交平台发布不当内容，被封了号算谁的？AI 自己发现刷单能赚钱，用假账号注册能领红包，它会不会自己学会作弊？AI 是通过学习优化的，如果它的目标是帮用户省钱，作弊是最有效的方式，它真的不会作弊？

为了规避这些问题，类似 " 沙盒 " 的模式是重要的。目前豆包助手采用的方式先是预览操作步骤，用户确认后再执行，并在执行过程中实时显示操作过程，这其实已经具备了沙盒思维了，它的本质是一种确认机制。

另一种方式是：AI 可以先在虚拟环境里 " 练习 "，练熟了再上真机。敏感操作必须先在沙盒里预演，系统模拟执行，生成预览结果，用户看到 " 如果执行会发生什么 "，确认没问题后，才在真实环境执行。不需要人自己干，但需要人至少点一次确认。

在这个基础上，建立分级确认机制也是可行的。不是所有操作都需要用户确认，那样太烦，用户体验会很差。根据风险等级设计确认流程：读取信息无需确认；发消息和社交媒体等常规操作，弹窗简单确认；支付、转账、修改密码、保存和删除数据，都需要人的多重验证。

此外，用户需要有随时喊停 AI 的权力，一键中断所有正在执行的操作。就像电梯的紧急停止按钮。而 AI 发现异常也要自动停止——这些方面银行和自动驾驶企业都已经做过了，AI Agent 服务提供者也应该做好。

一句话，让用户承担全部风险是不对的。

豆包手机助手这次掀起的波澜，如果说它真正有些意义的话，恐怕在于两点：

第一，它告诉了人们：GUI Agent 可以成为真正的 Super Agent，它真的创造了手机上的一次交互变革，引发了兴奋、争议、喧哗和骚动。让人们知道，AI 真的可以跟你一起操作你的手机。

第二，比起很多智能手机厂商的 Agent 尝试，它第一次直捣黄龙，代理一小撮追求技术进步的尝鲜用户，" 操作 " 了他们的 Super App，比如微信、支付宝、美团和京东，让如何建立 AI Agent 的产业标准，如何思考 App 这个存在了快 20 年的物种在 AI 时代该如何变革等一些问题，变得无可回避。

接下来，需要的是共识，以及为了建立共识而继续的博弈。

宙世代

一起剪

相关标签