硅星人 12小时前
豆包AI 手机风波之后,能不能有点儿共识?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

12 月 1 日,豆包手机助手上线。

它偷了蚂蚁森林能量,成功了;它在 B 站答题领会员,全程自动操作;有人让它 " 把昨天拍的照片在微信上发给我妈 ",搞定了。

不到两天,它就被微信屏蔽了。支付宝、淘宝、美团等等,随即先后屏蔽了豆包手机助手打开它们的 App。

风波未平,AI 创业公司智谱又上场了。12 月 9 日深夜,智谱开源了 AutoGLM,口号响亮:" 让每台手机都成为 AI 手机,AI 手机不该掌握在少数厂商手中 ",拉高了一波 AI 手机概念股。

在 《OpenAI 和豆包栽在了同一个问题》 一文中我说过:接下来你会看到更多的 " 手机助手 " 试图打开你的微信、抖音和支付宝。没想到这么快就来了。

豆包手机助手的兴奋感已经传到了大洋彼岸,有开发者在 X 上说:" 这是我见过第一个真正能用的 AI 手机助手,不是 Siri 那种‘帮你设个闹钟’的玩具级功能,是真的能跨应用完成复杂任务链。"

它展示了一个强大的 GUI Agent 的真正潜力——不需要 App 开放 API,Agent 直接 " 看 " 屏幕理解界面;不需要人工训练每个 App 的操作路径,Agent 自主学习,跨应用无缝切换,完成一个完整任务链。

难怪 X 上也有评论说:" 这是 iPhone 问世以来,手机交互方式最大的一次革命 "。

豆包手机助手证明:GUI Agent 作为一种产品形态,是成立的,用户需求也是真实的,搭载了豆包助手的 Nubia M153 工程机在闲鱼上的热销,超过 99% 天天上播客和 demo day 的 AI 创业项目。

而智谱 AutoGLM 的开源,在豆包把市场教育完,也把雷点踩完之后,以 " 开源英雄 " 的人设,收割了一把关注度和认知。

它用了一种更 " 高明 " 的办法:ADB+ 视觉识别方案,在 " 云手机 " 的虚拟环境里操作,操作手机的方式更隐蔽,它无需获得更高级别的手机系统权限,模拟的是人类用手指点击屏幕的行为,平台风控很难区分是真人还是 AI。

AutoGLM 还借此享受了一把开源的声誉红利,但不用承担任何产品的法律风险——用户怎么部署是他们的事。问题是:配置 ADB、开发者模式、部署 9B 的推理模型,这事儿普通人是搞不定的。闲鱼上已经有人卖 "100 元代部署 AutoGLM 服务 " 了。

恕我直言,我觉得智谱 AutoGLM 开源对推动智能手机的 AI 化意义相当有限。

比起豆包是真的想让一部分人先用上一部 "AI 原生 " 的手机,AutoGLM 更多的是秀了一把肌肉,收割了一波注意力,以及提供了一种看似目前可以绕开微信、支付宝和美团们 " 封禁 ",然则终将被堵上的技术漏洞。现在已经有开发者出来报错了:自己部署的 AutoGLM,被微信封了。

该没解决的问题,一个也没解决。Super Agent 和 Super App 之间的关系,一点儿也没理顺。

一句话,AI 手机怎么搞,需要产业的广泛共识,需要 Super Agent 和 Super App 之间的共识。

中国移动生态太发达了,互联网巨头们围绕着 App 建立起来的流量、护城河、生态和利益太丰富了,它已经成为了推动手机 AI 化的 legacy ——打破任何一点现在的格局,都让巨头们难受。

但该来的,还是要来。

1

第一个问题:能不能有 AI Agent 认证体系?

豆包助手暴露的问题是:努比亚授权了 AI 能用系统级权限,但 App 厂商不认。

中间缺少的环节是:谁能授权 AI 操作第三方 App?

模拟用户的点击、滑动、输入,是豆包从努比亚获得的授权。从技术角度看,这是手机操作系统赋予的合法能力。但微信的用户协议明确禁止 " 外挂软件 ",任何模拟用户操作的行为都属于违规。

这个时候,为什么不能有一个 "AI 代理操作认证体系 " 呢?就像网站有 SSL 证书证明身份和安全性,AI Agent 为什么不能有一个 " 可信代理 " 认证体系呢?

至少,它能解决三个问题:第一,证明 AI 的身份——谁家的 AI,什么技术架构;第二,证明 AI 的授权——用户让我干什么,授权范围是什么,有没有超出授权;第三,证明 AI 的安全性——不会乱来,有安全措施,有操作日志,有责任保险。

当年支付宝刚出来的时候,银行也不舒服,觉得你凭什么代替我跟用户交互?这是我的客户,你凭什么中间过一道?后来,有了第三方支付牌照,问题就解决了。规则是:满足这些条件,你就能做第三方支付;不满足,就不能做。银行可以对接,也可以拒绝,但是要有一套通行的依据。

同理,AI Agent 也需要这样一个 " 代理操作认证 " 体系,它未必是一张牌照,而是一套通行的技术标准。不是谁都能随便模拟用户操作,但只要你符合标准,通过认证,平台就不能无理由拒绝。

别再争了各位。美国人是最擅长制定这种技术共识标准的,我们达不成共识,最后就还得用 OpenAI 和 Anthropic 制定的标准。

1

第二个问题,能不能把最高权限交给用户 ?

聊天记录、支付记录、打车订单,所有权、使用权、授权权分别是谁的 ?

App 可以认为:用户的数据在我平台上,是我的资产。我投入了服务器、带宽、运维成本,提供了免费服务,数据当然有我的权益。而且用户协议里写了,用户授权我使用这些数据来改进产品、推送广告。

用户觉得:这是我的隐私,我的聊天内容,我跟朋友的对话,凭什么不能给我自己的 AI 看 ? 我授权 AI 帮我整理聊天记录、提取重要信息、提醒我未读消息,这是我的权利。

AI 模型和 Agent 提供者认为:用户授权了,我就可以读取、分析、使用这些数据来提供服务。我不会泄露给第三方,不会用于训练模型(除非用户同意),我只是代表用户行使他 / 她的权利。

这个时候,明确 " 数据所有权归用户 " 的至高原则是非常重要的,它决定了一切用户授权、AI 代理和 App 安全防范机制的基础。

这意味着以下几点:

用户在平台上产生的内容、行为数据,归根结底属于用户本人,平台提供服务,但不拥有用户的数据。

数据使用权可以授权,平台有权使用数据提供服务(比如推荐算法、个性化广告),这是用户协议中约定的,但用户也有权授权第三方 AI 使用数据,这两个授权之间不应该冲突。

平台有安全审查权,但不能无理由拒绝,如果 AI 通过了认证,证明了安全性,就不该轻易被拒绝。

1

第三个问题,能不能重新创造商业模式?

Super Agent 动了 Super Apps 的蛋糕,这简直是一定的。

因为人的浏览行为被 Agent 取代,推荐算法带来的注意力机制会被颠覆。这样,广告收入会被影响,流量分发的收入来源也会被影响,甚至会员收入也被影响。

但 Super Agent 自己呢?如果它的存在只是削弱了平台的收入,而自己的 GPU 算力、模型研发和优化等成本又居高不下,久而久之,无人从这场变革中受益,这个游戏就玩不下去了,就会变成双输或者多输的游戏。

在这种情形下,重新想象和创造商业模式就是很重要的。

OpenAI 跟亚马逊现在关系很紧张,但它与沃尔玛的合作是一个不错的例子。现在沃尔玛 36% 的线上流量来自 OpenAI,尽管现在没有听说它们之间又什么分成计划,但这件事不值得想象么?这就好比是搜索引擎的 CPC(按点击付费)模式:每一个通过 ChatGPT 引导到沃尔玛的用户,沃尔玛付给 OpenAI 一笔费用。

再比如 Agent 的订阅费用——如果 Agent 购物真的能给一个用户每年省 2000 元人民币的话,一个月收 20 元的订阅费不过分吧?这笔钱,Super Agent 是应该分一部分给 Super Apps 的。就像爱奇艺的会员用户可以付费跳广告,YouTube 从订阅费里分成给创作者,是一个道理。

此外,增值服务分层设计是不是可行?基础功能免费,但限制次数,只能用于常规任务。如果用户真的有强烈意愿,让 Super Agent 操作微信自动回复、支付宝账单管理、滴滴会员卡管理等高级功能的话,还是要为高级功能付费的——也就是执行复杂任务链、跨平台操作,处理敏感信息私有信息,甚至企业定制化等高级功能,都得收钱,这个钱要跟 Super App 分成。

这个问题不解决,平台就会一直抵制,这也是可以理解的。

1

第四个问题,能不能推广沙盒确认和分级确认的安全机制?

把 " 我爱你 " 发给了男老板而不是女朋友,要转 100 元结果转了 10000 元,Agent 误删重要聊天联系人,清理垃圾文件把重要工作文档也删了 …… 这些事如果出现,责任是谁的?

很多人忽略了,AI 犯错的成本,往往比人犯错更高——因为 AI 操作速度快,一秒钟能完成人需要一分钟完成的任务,出错了也是大规模出错,人想挽回都做不到,标准的手慢无。

AI 被黑客了怎么办?钓鱼邮件和诈骗电话能骗人,就一定骗不了 AI?AI 一定比老头老太太反诈意识更强?AI 在社交平台发布不当内容,被封了号算谁的?AI 自己发现刷单能赚钱,用假账号注册能领红包,它会不会自己学会作弊?AI 是通过学习优化的,如果它的目标是帮用户省钱,作弊是最有效的方式,它真的不会作弊?

为了规避这些问题,类似 " 沙盒 " 的模式是重要的。目前豆包助手采用的方式先是预览操作步骤,用户确认后再执行,并在执行过程中实时显示操作过程,这其实已经具备了沙盒思维了,它的本质是一种确认机制。

另一种方式是:AI 可以先在虚拟环境里 " 练习 ",练熟了再上真机。敏感操作必须先在沙盒里预演,系统模拟执行,生成预览结果,用户看到 " 如果执行会发生什么 ",确认没问题后,才在真实环境执行。不需要人自己干,但需要人至少点一次确认。

在这个基础上,建立分级确认机制也是可行的。不是所有操作都需要用户确认,那样太烦,用户体验会很差。根据风险等级设计确认流程:读取信息无需确认;发消息和社交媒体等常规操作,弹窗简单确认;支付、转账、修改密码、保存和删除数据,都需要人的多重验证。

此外,用户需要有随时喊停 AI 的权力,一键中断所有正在执行的操作。就像电梯的紧急停止按钮。而 AI 发现异常也要自动停止——这些方面银行和自动驾驶企业都已经做过了,AI Agent 服务提供者也应该做好。

一句话,让用户承担全部风险是不对的。

豆包手机助手这次掀起的波澜,如果说它真正有些意义的话,恐怕在于两点:

第一,它告诉了人们:GUI Agent 可以成为真正的 Super Agent,它真的创造了手机上的一次交互变革,引发了兴奋、争议、喧哗和骚动。让人们知道,AI 真的可以跟你一起操作你的手机。

第二,比起很多智能手机厂商的 Agent 尝试,它第一次直捣黄龙,代理一小撮追求技术进步的尝鲜用户," 操作 " 了他们的 Super App,比如微信、支付宝、美团和京东,让如何建立 AI Agent 的产业标准,如何思考 App 这个存在了快 20 年的物种在 AI 时代该如何变革等一些问题,变得无可回避。

接下来,需要的是共识,以及为了建立共识而继续的博弈。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开源 支付宝 微信 闲鱼
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论