腾讯科技 20小时前
Kimi Work不是中国版Codex
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Kimi Work 和 CoWork。图片由 AI 生成

文丨苏扬

编辑丨徐青阳

Vibe Working 有可能是接下来比 Vibe Coding 更火的词。

就在上周,Kimi 发布了新的 Windows 和 Mac 客户端,增加了 Kimi Work 模式。

Kimi 对这款产品的定位很明确:一款面向知识工作者的通用型本地 Agent。它的主要产品特点包括:

内核是 Kimi Code,继承了本地 Agent、Skill 技能包以及 Kimi Agent 的建站、PPT 等能力

接入了同花顺、天眼查等金融、科研、法律等领域的专业数据库

内置了可以操控浏览器的 WebBridge 产品方案

内置了 Kimi K2.5 开始推出的 Agent 集群

把 Kimi Work 从 Coding 里分拆出来,明确面向知识人群,定位为通用 Agent,不是因为编程类的产品不好,很大一部分原因是 Kimi 想把 Agent 能力从编程泛化到更多场景。

早期,编程类 Agent 产品都是 " 终端 "" 命令提示行 ",观感就是满屏代码,这种环境对于程序员友好,非编程类用户未必能适应。

所以,Kimi Work,决定不这么做。

因为面向的是知识用户,Kimi Work 被做成了用户最熟悉通用软件的样子:右边是对话框、左边侧边栏是功能分类,用户可以在 Chatbot 模式和新加入的 Work 模式中间切换。

外观上,Kimi Work 和 Codex 有点像,但从内核看,不能把它当做一款中国化的 Codex。

Kimi Work Beta 版软件界面

01  

从现在开始氛围办公

卡帕西去年提出了 Vibe Coding ( 氛围编程 ) 的概念,当时这个词非常火,相当于用自然语言发指令,Agent 通过 LLM 执行编程任务并交付结果。

问题是,人人都需要做编程开发、写网页、做小游戏吗?不好说。

我特意搜了一下目前 Mac OS 的使用场景排行,当中 67.2% 的日活设备在处理文档、表格与工作沟通,覆盖的生产力软件包括 Notion、Microsoft 365 以及一些办公 IM。

Kimi Work 算是一款针对上述办公场景极其友好的产品,你不再需要打开终端、敲命令、配环境,只需要用自然语言描述目标,Kimi Work 就会在你的电脑上:拆解任务、并行执行子任务、调用本地工具、操作浏览器、创建和整理文件夹、交付文档 / 表格 /PPT 等工作产物。

换句话说,除了不能代替你使用社交、办公 IM 与人沟通外,其他办公任务基本都可以用 Kimi Work 这个通用 Agent 来执行。

特别强调一下:Kimi 里面内置了专业的数据源,包括同花顺、世界银行经济数据库等等,这意味着金融类用户安装 Kimi Work 之后就能 " 开箱即用 ",不需要单独为相关的数据去付费和配置 API。

Kimi Work 预装的数据库类型

正是因为这样的差异,所以不能把它理解为中国版的 Codex。

插上各种插件、数据源的 Kimi Work,不排除带来一场工作范式的变化,所以我才说,过去是 Vibe Coding,接下来更多人将进入 Vibe Working ( 氛围办公 ) 。

当然,也要提醒大家,功能虽然好用,但也有可能无形中榨干你的生产力,增加你的工作时长。

02

WebBridge 和 Agent 集群 " 两只手 "

5 月中旬,Kimi 上线了 WebBridge 产品,让 AI 来操作浏览器,当时会让人觉得节奏略慢了一些,但不到半个月时间,Kimi 直接把这个能力集成在 Kimi Work 新产品当中,这个转变和反差,还是挺大的。

可以说,WebBridge 是 Kimi Work 一只非常 " 关键的手 "。

过去,一些传统的 Agent 调用网络工具,都是发送 HTTP 请求,然后拿结构化数据,但由于大量数据需要登录之后才能查看,很多平台也做了非登录用户访问限制,甚至还有验证码的问题,传统 Agent 难以轻易越过这些障碍。

虽然有些平台提供了 API,比如 X(前 Twitter),但价格贵、套餐量少,长期用也烧不起。

Kimi WebBridge 的方案是:让 Agent 真正操作你电脑上的浏览器,像人一样登录、点击、读取页面内容。只要登录状态正常,你可以在对话里直接用自然语言指示它用 WebBridge 来操作你的浏览器。

指示 Kimi Work 使用 WebBridge 取关马斯克 X 账号

我让 Kimi Work 使用 WebBridge 给马斯克的最新一条推文点赞,然后又让它帮我取关了马斯克,最后又让它关注回来,由于中间夹杂着推理过程,包括对浏览器上的元素进行分析,速度不及人类,但整个链路是可以完整、成功执行的,且你不需要盯着它。

点赞、取关和关注都只是 WebBridge 的简单示例,你也可以基于这种能力,做更有创意的任务延展,比如每天定时去某个页面上做一个打卡操作等等,反正浏览器已经交给它了,剩下的就看任务是什么。

利用 Kimi Work 生成公众号模板,gif 图片由 Kimi Work 制作

Kimi Work 的另一个超酷功能,是集成了 Kimi K2.5 时代就有的 Agent 集群——简单说就是把一项任务拆分成多项工作,然后交给不同 Agent 来完成。它有点类似 GPU 并行计算的概念,把一个人类只能串行操作的任务,变成了一个多 Agent 并行执行的范式。

Agent 集群最多可以同时调用 300 个 Agent,可以想象一下这种画面:一个人带着 300 个 Agent 干活,还挺带感的。

过去很多人关心:啥是 OPC(一人公司)?我感觉这可能算是一个答案。当然,不是所有的任务都会全量调用这么多 Agent,实际执行过程中,主 Agent 会自动拆解任务,然后去对应分配 " 人力 "。

单 Agent 与 Agent 集群用时对比

我特地用了长鑫招股书 PDF,大概 300 页左右,测试了单 Agent 和 Agent 集群(包含主 Agent 总共调用了 5 个 Agent)的差别,这个过程中还混搭用到了归藏的 PPT Skill,单 Agent 制作耗时在 43 分钟,而 Agent 集群耗时在 21 分钟左右。

不过这里也有推理和最后任务量的差异,时间差别仅供参考,但显然,Agent 集群直接把效率拉满了。

基于归藏 PPT Skill 和招股书 PDF 文件制作的 PPT 效果,gif 图片由 Kimi Work 制作

哦对了,刚刚有消息说,月之暗面寻求 300 亿美元估值融资 20 多亿美元,300 个 Agent 对应 300 亿美元,这意思是 1 个 Agent 估值 1 个亿 ?

03

Skill 是真有说法

Kimi Work 的 " 技能 " 广场

Kimi Work 设置了一个 " 技能 " 广场,分为已安装和推荐技能两个板块。

这很好理解,推荐板块就是还没安装的。已安装里面则包括了一些常见跟知识用户场景相关的 Skill,类似深度研究、竞品分析和战略规划等等,而这些都是经过用户和平台筛选的技能。

如果广场上的技能都满足不了要求,你也可以直接从本地安装自己开发或者收集的 Skill。

日常应用的话,广场里面可以直接点击使用,但更高频的应用应该是对话框选择 Skill,添加特定 Skill 它会默认给你一段提示词来触发技能,当然你也可以不勾选,直接用提示词来触发 Agent 去调用相关 Skill。

前面提到的归藏 PPT Skill,昨天下午我在测试预览版的时候,线上还是没有的,所以我还特地去找了归藏本人求资源,结果早上一来,发现推荐技能里面已经预置了这套 Skill。

你可以感受一下 Kimi 这个效率。

当然,这里我觉得也有一些可以改进的地方:广场还没有做计数、分类、搜索这些能力,也没有热度排行,希望能够在接下来的版本中很快迭代。

另外,目前已安装的 Skill 里面,很多都是英文名称和描述,也期待之后能做更多的中文标记。

04

92% 的代码由 AI 生成

文章开头,我说这是 Kimi 产品历史上开发到上线最快的产品,整个过程只用了一个星期。

更重要的是,它是一款 AI 开发的产品——在开发过程中,Kimi 工程师使用 Kimi Code 等 Coding Agent 工具,一周内完成了 Beta 版的 Mac 和 Windows 客户端。开发过程中,累计产出超过 5 万行有效代码,其中 92% 由 AI 自主生成。

用一套 Agent 产品,打造了另一个 Agent 产品,相当于 "AI 再造 AI" 概念具象化了。

关键在于,背后的 K2.6 模型对长程任务、Agent 集群等能力项的支持—— 13 小时连续编码、300 个子 Agent 并行协作,以及 4000 余次自主工具调用。

自动化科技线索监控定时任务,gif 图片由 Kimi Work 制作

在这之前,我用过很多 Agent 产品,既有原生的 " 虾 "" 马 ",也有各种中国化的产品,会自己 DIY 一些自动化工作流,就是功能没有那么稳定,可能会中断,但我认为一定会有聪明的公司,把这些基础、断层的能力去做产品化。

那么到底是什么样的团队、公司来做这件事?

Kimi Work 给的答案是第一方模型公司——模型能力强在哪里,特色是什么,通用 Agent 产品里就会出现什么样的能力。所以 Kimi 2.5、K2.6 的长程任务、Agent 集群、丰富且经过验证的技能以及预装的专业数据库,都出现在了 Kimi Work 里。

最后我也想谈谈安全话题。

我自己用 Agent 产品,基本不会安装在自己的工作设备上,一般都放在云端,即便是安装在本地,也会用全新的机器——把工作设备交给 Agent 需要越过一个心理障碍,它到底会不会误操作文档,误删数据,甚至会不会弄丢我的隐私?

任务执行权限设置

Kimi Work 在这个问题上,解法是将任务固定在指定的文件夹当中。

这就像一个围栏,Agent 所操作的一切都限制在这个围栏里。任务的执行过程中,你可以选择让 Agent 请求权限,也可以给予它全部权限。

也是因为这个原因,Kimi Work 算是我第一个安装在日常办公设备上的第三方通用 Agent 产品。

回到文章开头提到的 " 工作范式 " 变化的话题,Kimi Work 本质上就是在求解:如果 AI Agent 不再只是你的 " 助手 ",而是一个可以自主拆解任务、并行工作的 " 团队 " ——你的工作方式会变成什么样?

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi ai windows 技能 科研
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论