钛媒体 3小时前
Clawdbot爆火,我看到了腾讯元宝的通天路
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 字母 AI

GitHub 上有这么一个项目,一天内就暴涨了 9000 颗星,从早上的 7.9K 飙升到晚上的 17K+。截至发稿,这个项目已经突破 4 万颗星了。

这种增长速度在开源项目中极为罕见,甚至由于这个项目能运行在苹果 M4 芯片上,直接引起了 Mac mini 的抢购潮。

而这个项目就是 Clawdbot。

周末这两天,整个硅谷 A 圈都沉迷在了 Clawdbot 里。

前特斯拉 AI 负责人安德烈 · 卡帕西(Andrej Karpathy)公开点赞,谷歌 AI 产品负责人洛根 · 基尔帕特里克(Logan Kilpatrick)跟风购买 Mac mini, MacStories 的费德里科 · 维蒂奇(Federico Viticci)在一周内烧掉 1.8 亿个 Anthropic API Token,就为了体验 Clawdbot。

看到 Clawdbot 的火爆,我突然意识到:这不正是元宝在微信生态里可以复制的机会吗?

但在探讨元宝的可能性之前,我们还是先来了解一下,Clawdbot 到底是什么,它为什么能在短短几天内征服这么多 AI 大牛。

什么是 Clawdbot

一句话概括,Clawdbot 是一个开源的、可自托管的 AI 助手。

它的核心创新点在于,无需打开专门的网站或 App,只需通过日常使用的通讯软件(WhatsApp、Telegram、iMessage、Discord、Slack 等)发送消息,就能指挥它完成各种任务。

相当于是有个 24 小时不休息的员工坐在你电脑前,你下班的时候想看电视剧了,就可以跟 Clawdbot 说你的需求,他会打开相应的页面。等你到家后,坐在电脑前就可以直接看你想看的电视剧了。

Clawdbot 的设计逻辑是通过消息应用发出指令,它会调用后台运行的大语言模型,将需求转化为本地 Shell 脚本并在你的电脑上执行。

换句话说,它不是告诉你怎么做,而是直接帮你做完。

它的工作流程是 " 消息应用⇄网关⇄ AI 模型 + 工具 " 的架构。网关作为协调中枢运行在你自己的设备上,负责消息路由、状态管理、定时任务和服务集成。

但纠结的地方来了,为了让 AI 更强大、更好用,它就需要极高的权限(读写文件、执行终端命令)。但为了安全,又必须限制它。

Clawdbot 的解决方案是引入 " 会话隔离 " 机制。

它把使用场景分成两类:一类是 " 主会话 " ( main session ) ,就是你一对一跟它聊天的时候;另一类是 " 非主会话 " ( non-main session ) ,比如在群聊或者公共频道里。

在主会话中,Clawdbot 拥有完整的系统权限,可以读写文件、执行 bash 命令、控制浏览器、操作日历。因为这时候只有你在和它对话,风险可控。

但在非主会话中,Clawdbot 会自动切换到 " 沙箱模式 ",它会把所有操作都放进 Docker 容器里执行。

这就好比给它准备了一个 " 训练场 "。在这个隔离的环境里,它依然可以执行命令,但无法触及你电脑上的真实数据。即使有人在群聊里试图通过恶意指令攻击你的系统,Clawdbot 也只会在沙箱里执行,不会影响到真实环境。

另一个技术难点是网关(Gateway)和工具(Tools)的协调。

网关是运行在你设备上的控制中枢,它负责接收来自各个聊天软件的消息,维护会话状态,调度 AI 模型,管理定时任务。而工具则是 Clawdbot 能够调用的各种能力。

这两者的配合并不简单。当你在聊天软件里给 Clawdbot 发一条消息,网关需要做这样几件事:

1. 识别这条消息来自哪个会话(是主会话还是群聊),

2. 决定用什么权限级别来处理(完整权限还是沙箱模式),

3. 把消息发给 AI 模型理解意图,

4.AI 模型返回需要调用的工具和参数,

5. 网关再去执行这些工具,

6. 最后把结果返回给你。

整个过程中,网关要同时处理多个会话,每个会话可能有不同的权限配置,还要保证消息的顺序不乱,状态不丢失。

这就像一个交警,他需要协调来自不同方向的车,在保证效率的同时避免碰撞。

为了解决这个问题,Clawdbot 设计了一套 " 会话模型 "。每个会话都有自己的状态、历史记录、权限配置。

虽然 AI 推理仍需调用 Anthropic 或 OpenAI 的 API,但路由逻辑和自动化控制完全在本地,保证了隐私和可控性。这种架构设计让 Clawdbot 既能利用云端大模型的强大能力,又能保持本地优先的隐私原则。

模型的记忆是有限的,但是 Clawdbot 属于长期持续工作的产品,因此它将所有交互记录以 Markdown 格式存储在本地文件夹中,形成持久记忆,类似 Obsidian 的知识库。

它会记住你的偏好、习惯、正在进行的项目,每次对话都能延续上下文,而不是像传统 AI 那样每次都从零开始。

同时,Clawdbot 还具备一定的 " 自我升级 " 能力。比如当你告诉它 " 我想让你能够生成图片 ",它会自己去研究如何接入图片生成 API,自己改进自己的代码,然后告诉你 " 我现在可以生成图片了 "。

Clawdbot 官方把这个过程叫做 " 自我技能扩展(Self-Expanding Skills)"。

它会优先检索官方技能库与用户本地已安装技能,仅在无可用资源时才进行完整 API 研究与代码编写。

当技能升级扩展完成后,Clawdbot 会开始语法检查、权限验证、功能试运行三步,测试失败会自动回滚并向用户报告问题,不会影响现有功能。

此外,Clawdbot 还是一个主动的 AI 助手。它通过 cron 定时任务,能够主动向你发送消息。每天早上自动发送日程摘要、每周五下午总结本周工作进展、监控特定条件并及时提醒。

这种主动性打破了传统 AI 的被动响应模式。你不再需要记得去问它,而是它会在合适的时间主动找你。

运行 Clawdbot 并不需要昂贵的硬件。虽然网上流传着很多人购买 Mac mini 来运行 Clawdbot 的故事,但实际上,对于基本的聊天、总结、API 调用场景,只需要一台每月 5 美元的 VPS 就足够了。

只有当你需要运行本地大模型、执行重度自动化任务时,才需要考虑 Mac mini 这类本地硬件。Mac mini 的抢购潮更多是一种社交证明和极客文化的体现,而非必需品。

不仅仅是操作电脑,从技术实现上看,Clawdbot 支持超过 50 种集成,包括 Gmail、GitHub、Obsidian、Notion、Todoist、Spotify、Philips Hue 智能灯等。

那也就意味着,你可以用一条短信,控制整个屋子的智能家具。

Clawdbot 可以连接你生活和工作中的几乎所有数字工具,成为一个真正的数字生活中枢。而且由于它是开源的,社区正在不断贡献新的技能和插件。

为何 Clawdbot 会爆火?

Clawdbot 的火爆源于它解决了现有 AI 工具的核心痛点:摩擦力太大。

这个问题听起来简单,但它是阻碍 AI 真正融入日常生活的最大障碍。

传统 AI 需要你打开网页、切换标签页、复制粘贴结果,每一步都在打断你的工作流。

你正在写邮件,突然需要 AI 帮忙润色一段话,你得切换到 ChatGPT 的标签页,粘贴内容,等待回复,再复制回来。

这个过程看似只需要几秒钟,但它打断了你的思维,使整个流程不再连贯。而 Clawdbot 不同,它就在你的聊天软件里,你发一条消息就能得到回复,不需要任何上下文切换。

另一大原因在于隐私。

在 AI 服务普遍依赖云端的今天,Clawdbot 的本地优先、开源透明、用户可控理念击中了技术社区的核心诉求。你的对话记录、个人偏好、自动化脚本只会存储在自己的设备上,可以随时查看和修改。

" 数据主权 " 掌握在自己手中,这对于重视隐私的用户来说是巨大的吸引力。

更深层的原因是,Clawdbot 代表了一种新的软件范式。传统软件是静态的,开发者写好功能,用户被动使用。而 Clawdbot 是动态的、可塑的。

你可以随时让它学习新技能,可以让它根据你的需求自我改造。

这其实是一种 " 软件即对话(SaaC,Software as a Chat)" 的新模式,每个用户都能以自己独特的语言风格和需求,拥有一个量身定制的助手。

从社区反应来看,Clawdbot 的火爆也体现了一种集体的渴望。人们等 Siri 变聪明等了十几年,等 Alexa 真正有用等了快十年,但这些大公司的产品始终停留在 " 设个闹钟、查个天气 " 的水平。

而 Clawdbot 用开源的方式,用社区的力量,在几周内就实现了这些大公司承诺了多年却没做到的事情。

这种 " 人人都是产品经理,人人都是开发者 " 的氛围,在技术社区引发了强烈共鸣。

诚然,Clawdbot 在技术上并不没有什么很高深的地方,它本质上是一个 "harness"(线束),它把强大的模型能力转化为实际可用的助手功能。没有这些模型的进步,Clawdbot 不可能实现。

但它的产品理念击中了人们的痛点。

AI 助手的重点不是 AI,而是助手。所以它不应该是一个单独的网站,而应该是一个生活在你日常工具里的存在。

更重要的是 Clawdbot 的可扩展能力,有人让 Clawdbot 每天早上总结 Whoop 手环的健康数据,有人让它自动处理保险理赔邮件,还有人让它监控服务器状态并在出问题时自动修复。

这些都不是官方预设的功能,而是用户根据自己的需求创造出来的。

元宝的机会来了

Clawdbot 的成功证明,AI 助手应该生活在用户已有的通讯工具中,而不是要求用户安装新 App。

在中国,这个工具就是微信。

微信不仅是中国最大的通讯工具,它本身就是现代生活的工作流之一。

人们在微信里聊天、工作、支付、购物,几乎所有的数字生活都能在微信里发生。

如果元宝能够以通讯录的形式存在,它将拥有天然的用户触达优势。用户不需要下载新应用,不需要学习新界面,只需要像给朋友发消息一样给元宝发消息,这种零门槛的使用方式,是任何独立 App 都无法比拟的。

而且,微信的优势还不止于此。

微信拥有支付和小程序生态,这意味着元宝可以做的事情比 Clawdbot 更多。

Clawdbot 可以帮你查信息、写代码、管理日程,但它很难帮你完成支付、预订、购物这些闭环操作。

而元宝如果能打通微信支付和小程序,它就能真正成为一个万能助手。你可以让元宝帮你订外卖、买电影票、缴水电费、预约挂号,所有这些操作都在对话中完成,不需要跳转到其他应用。

Clawdbot 将记忆存储为 Markdown 文件,这已经很先进了。但元宝可以在微信生态内,以聊天记录、图片、表情包、订阅的公众号、微信订阅的服务,来构建更高维度、更精准的个人知识库。

微信记录了你的社交关系、消费习惯、兴趣偏好,这些数据如果能被元宝合理利用(当然前提是用户授权和隐私保护),它对你的了解将远超任何其他 AI 助手。

这种持久记忆能力将让元宝从临时工具变成长期伙伴,用户使用越久,它越了解你,它能带给你的价值也就越大。

Clawdbot 的主动关心用户,对元宝也是一个启发。通过微信绑定的信息,元宝可以做到更多。

每天早上推送个性化日程和天气,这是基础功能。但元宝还可以监控快递物流并主动提醒签收,可以定期总结消费账单和理财建议,可以根据用户习惯推荐内容或服务。

比如,元宝发现你最近经常搜索某个话题,它可以主动推送相关的公众号文章或视频号内容。

这可不是畅想,从技术实现上看,元宝复制 Clawdbot 的核心能力是完全可行的。

Clawdbot 的架构并不复杂,前文提到,一个消息网关,一个大语言模型接口,一套工具调用系统就够了。

这些技术腾讯都有,而且可能做得更好,更何况腾讯还有自己的混元大模型。如果腾讯愿意投入资源,元宝完全可以成为中国版的 Clawdbot,甚至做得更好。

但元宝要成功,需要解决几个关键问题。

第一个是隐私和信任。Clawdbot 之所以受欢迎,很大程度上是因为它开源、本地优先,用户完全掌控自己的数据。

而元宝作为腾讯的产品,必然是云端服务,如何让用户相信自己的数据是安全的、不会被滥用,这是一个巨大的挑战。

第二个肯定就是开放性,Clawdbot 的强大来自于社区贡献的技能和插件,而元宝如果想要同样的生态,就需要开放 API,让第三方开发者可以为元宝开发技能。

但腾讯对于开放 API 的态度一直很审慎。多年来,微信一直对第三方 API 保持严格限制,甚至封禁使用 itcha 等非官方 API 的账号。

微信的用户协议明确禁止 " 通过非腾讯开发、授权的第三方软件、插件、外挂、系统,登录或使用本软件及服务 "。

所以如果腾讯真打算把元宝做成 Clawdbot,那么需要好好想想究竟如何运营开发者社区。

最后是商业模式。

Clawdbot 是开源项目,用户只需要支付 API 调用费用。而元宝作为商业产品,如何定价、如何盈利,这需要仔细设计。

如果定价太高,会吓跑用户,如果免费,又难以持续投入。

最近很火的 freemium 模式适合元宝版 Clawbot。基础功能免费,高级功能(比如更强的模型、更多的 API 调用次数、企业级功能)收费。

从更大的视角看,元宝如果能成功复制 Clawdbot,它的影响力只会更大。中国有超过 10 亿微信用户,如果其中哪怕只有 1% 的人开始使用元宝作为个人 AI 助手,那就是 1000 万用户。

这个规模是 Clawdbot 在全球范围内短期内都难以达到的。

说到聊天软件和接壤 AI 助手,在美国,这个工具可能是 WhatsApp、Telegram 或 iMessage。在中国,这个工具只能是微信。

元宝有机会成为中国版的 Clawdbot,关键在于腾讯是否愿意投入资源,是否愿意开放生态,是否愿意真正把用户需求放在第一位。

如果答案是肯定的,那么元宝的未来将不可限量。

评论
大家都在看