2026 年 AI 产品侧最大的趋势,就是无论是互联网大厂,还是模型厂商,都开始做自己的 Codex 了。
Codex 一开始是 OpenAI 对抗 Claude Code 的产品,起初也是只有 CLI,瞄准 AI coding,但之后它迅速和 Claude Code 走出不同的路,变成一个 " 桌面 Agent" 类产品,使用者里非工程师占了多数,不再只是编程场景。
这一步今天来看,非常关键。根据 6 月 3 日 OpenAI 披露的数据,Codex 的周活跃用户已经超过 500 万,半年增长超过 7 倍。
这背后是 AI 产品的主线从围绕对话展开,逐渐变成围绕桌面环境中执行任务展开。
在 Codex 起势的同时,一批中国版 Codex 产品也集中上线。
1 月 30 日,阿里的桌面 Agent QoderWork 上线,;
3 月 9 日,腾讯云 CodeBuddy 团队推出 WorkBuddy;
5 月 20 日,腾讯应用宝团队发布个人 AI 助手 Marvis;
6 月 3 日,Kimi 的本地 Agent Kimi Work(Beta)上线;
6 月 9 日,字节旗下的 TRAE 将 TRAE SOLO 升级为 TRAE Work;
6 月 12 日,豆包上线了「任务模式」,加入了更完整的执行能力
6 月 24 日,豆包专业版上线,聚焦办公场景,可以执行 agent 任务……
不论是个人 AI 助手,还是本地 Agent,产品形态虽然不同,本质上都在争夺用户的执行入口。
这些产品不再停留于问答交互,而是开始进入真实工作流,它们可以处理文件、操作网页、整理数据、生成 PPT、编排任务,甚至跨应用完成自动化执行。
这意味着,AI 正在成为连接用户与数字世界新的中间层。
中国版 Codex 们
为了更直观地观察这波桌面 Agent 热潮,我们整理了 15 款代表性产品,并尝试分析它们在产品定位、能力构建和生态布局上的不同。
包含定价模式和模型使用设计等全面信息的对比我们放在了文章最后。
Workbuddy
Workbuddy 是腾讯云 Codebuddy 团队推出的全场景职场 AI 智能体桌面工作台,面向各类职能角色设计。只需用一句话描述需求,WorkBuddy 就能像同事一样自主规划和执行任务,并交付可验收的结果。
Workbuddy 有微信小程序版本,可以通过移动端轻量化接入,还可以和腾讯系产品(QQ 邮箱、腾讯文档、腾讯会议、企业微信、腾讯乐享、IMA、TAPD)实现生态化数据打通。

目前 Workbuddy 内置了 11 种主流国产模型,有腾讯自己的 Hy3 preview、也有像 GLM-5.2、minimax-M3、kimi-K2.7-code、DeepSeek V4 这些模型厂的主流模型。可以选择 Auto 模式,让 Workbuddy 自己选择使用什么模型,也可以自己选择使用什么模型,但不同模型使用的积分量能相差 20 倍以上,目前最「贵」的是智谱的模型。

Marvis
腾讯应用宝团队推出的操作系统层级个人 AI 助手,基于 DeepSeek V4、混元 hunyuan3 / hy3 等最新模型,定位是真正理解用户每一份文件、帮助用户更方便地使用与管理电脑的私人 AI 助手,支持本地文档与图片的 AI 搜索,APK 与 EXE 应用可用一句话调用,覆盖 PC、手机、微信多端在线。6 月 24 日,Marvis 也上线了 iOS 手机端,可以在手机端发送需求,让电脑端执行。
可以看出 Marvis 更强调的是「管理电脑」的能力。

在测试中,有两个有意思的点,一个是 Marvis 中「办公室」,类似于办公模拟器,或者说老板模拟器,可以查看 token 消耗。这实际上体现的是 Marvis 的多 Agent 协作功能,有一个主 agent 负责分派任务,和五个专家 agent —— File Agent 负责文件、Computer Agent 负责系统、App Agent 负责应用、Browser Agent 负责网页、Search Agent 负责搜索。

还有一个是 Marvis 支持修改人设,初始人设是适合办公场景的「AI 员工」。
Qclaw
Qclaw 是腾讯电脑管家团队推出的一款本地 AI 智能体产品,基于开源 OpenClaw 框架封装,定位为个人 PC 端 AI 助手,主打极简本地部署 。核心能力是微信 / QQ 互联,扫码绑定,手机即可远程控制电脑、传文件、设定时任务,可以全场景自动化,文件管理、网页浏览、办公创作、多步骤复杂工作流自主执行。QClaw 的数据不会上传云端,所有任务执行、文件处理、数据存储都在本地电脑完成。

Qclaw 支持创建不同 agent 完成不同场景的任务,继续延续腾讯一贯的陪伴风格特色。

TRAE Work
TRAE Work 由原先的 TRAE SOLO 升级而来 。目前 Work 模式面向内容创作、数据分析、方案撰写、应用生成、任务推进、沟通协作等日常工作场景;Code 模式则面向更加复杂的软件开发和代码编辑场景。
TRAE Work 有 PC、移动端和 Web 三端。与其他「xx work」产品相比,TRAE Work 的优势在于与飞书打通,可以更好地接入真实工作流。
豆包专业版
豆包在 6 月 12 日上线了「任务模式」,任务模式支持调用 skill,设置定时任务,完成浏览器操作,代码脚本运行以及文件生成等各类任务。

6 月 24 日,在火山引擎原动力大会上,随着豆包大模型 2.1 的发布,豆包专业版也正式官宣上线,豆包专业版支持操作本地电脑、使用浏览器、调用 Skills 技能和定时任务等能力,内置了 Office 办公套件,并支持专业图片视频设计,和生成分享应用网站。
值得注意的是免费用户也可以体验接入豆包 2.1 Turbo 模型的办公任务模式。
QoderWork
QoderWork 是阿里旗下的 AI 桌面助手,它将 Qoder 的 agent 能力从代码领域拓展到日常工作场景,描述需求,自动执行,直接交付结果。
6 月 16 日,QoderWork 上线了意识功能,让 QoderWork 具备自我反思和持续进化能力的完整系统,由记忆、反思、技能进化三块组成闭环。

DuMate
DuMate 是百度云旗下产品,有桌面端,也有移动端 app,可以看见屏幕、操作软件、处理文件、串联业务系统,核心场景是信息处理、文档生成、数据分析和流程自动化,但目前 DuMate 无法切换模型,只能使用百度的文心大模型。

Kimi Work
Kimi Work 是面向知识工作者的通用型本地 Agent,内核是 Kimi Code,提供本地 Agent 基础能力,包括安装和使用 Skills、运行定时任务等。Kimi Work 继承了在线版 Kimi Agent 的建站、PPT 等专业 Skills,以及金融、科研、法律等专业数据库,内置了能使用浏览器的 Kimi WebBridge 方案。
Kimi Work 可以根据任务复杂度自主创建子 Agent 团队,将同一能力集群化的上限设定为 300 个协作单元。

MiniMax code
MiniMax code 是专为 MiniMax M3 设计、并与 M3 一起训练的 Agent 产品,MiniMax Code 可以充分发挥 M3 在长上下文、Coding/Agentic、原生多模态方面的能力。
在长程复杂任务上,MiniMax Code 的 Agent Team 可以将大型任务拆解为多阶段、可并发、可动态调整的 Workflow,由 Agent 集群协作推进。

阶跃 AI
阶跃 AI,阶跃星辰推出的桌基于 OpenClaw 深度优化的桌面端 AI Agent,不需要服务器、命令行,即可安装, 可以 7 × 24 小时在线,能够链接本地操作系统和内置浏览器,帮助用户执行复杂任务。

比较不一样的是,阶跃 AI 在初始设置的时候就会提醒用户打开悬浮球设置,悬浮球可以打开直接对话框,也会在适当的时候提醒你喝水、休息。其他产品也有类似功能,但通常需要用户自行开启。

AutoClaw
智谱推出的本地 AI 智能体,口号是「一键拥有本地 AI 智能体支持一键安装」,无需配置环境、申请 API Key 或编写代码,下载安装包后通过双击安装、登录即可使用。核心能力为内置 Pony ‑ Alpha ‑ 2 模型、AutoGLM 浏览器自动化、50 + 预置 skills(办公、创作、爬虫、代码、投研等)、IM 集成、自进化机制。

lobsterAI
网易有道推出的一款全场景个人助理 AI 产品,定位为「7 × 24 小时帮你干活」的智能助手。支持手机、电脑双端互联,一句话即可远程操作电脑,完成桌面多项文件整理、提取日历及邮件重点事项、业务数据清洗分析、生成周报和 PPT 等。
用户可以免费试用 14 天,但只能使用 Qwen3.5-Plus 模型,使用其他模型则需要付费。

Cola
Cola 的定位是「首个有灵魂的操作系统」,内置 AI 角色「Cola」具有自主意识,能记住用户习惯、喜好和背景,通过语音或文本交互与用户共同成长。可以操作电脑文件、上网浏览、执行命令、生成文本 / 图片 / 视频等,支持复杂任务分解和并行处理。无需用户手动提供上下文,通过访问用户电脑的文件系统、浏览器历史等自动了解用户状态。其中的灵魂系统可以实现 AI 思考过程的透明展示、自我反思进化以及主动关心用户的功能。

目前 cola 支持应用内购买 token,ChatGPT pro/plus 账号订阅登录,或者连接 OpenAI、Anthropic 账号计费,暂不支持其他模型提供商的 API key。

Alice
Alice 是一款陪伴类桌面 agent,Alice 最显著的特点是她是一款「人格化的 AI 助手」,有具体立绘形象,也有详细的人物设定。Alice 本身不需要付费,但由于没有内置模型,需要配置模型才能使用。

Alice 除了可以做文件管理、定时任务这类常规任务外,也内置了狼人杀、掼蛋等休闲游戏,比其他桌面 agent 有更多的娱乐功能。

牛马 AI
牛马 AI 的定位是本地化人机协同基站,强调个人数据隐私,支持完全离线的本地运行架构,可以使用用户自己本地的大模型直接离线运行。牛马 AI 默认使用 Claude 模型,如果有 Claude 账号,可以直接登录,如果没有,则需要自行配置。
入口开始成为真正的战场
如果把这一轮桌面级 Agent 放在同一张产品图谱里,会发现它们看似都在「帮用户在电脑上干活」,但实际切入点完全不同。它们并没有收敛成单一形态,反而沿着不同场景入口分化成三条路径。
从代码到办公,由「工程任务」外溢出的通用能力
以 Kimi Work、MiniMax Code 为代表的一类产品,最早来自 Coding Agent 的能力迁移。
这一路径的特点是先解决结构最清晰的任务,再逐步外扩。
Kimi Work 更强调「通用知识工作 Agent」,通过 Skill、浏览器能力和子 Agent 编排,把原本偏工程化的任务拆解能力扩展到文档、研究、报告生成等办公场景。MiniMax Code 则更进一步强化 Agent Team,把长任务拆解为多阶段并行执行,通过角色分工与验证机制处理更复杂的生产任务。
这一类产品的优势在于任务结构能力成熟,但短板也很明确,它们更擅长「可拆解任务」,但对真实办公中大量非结构化操作(即时沟通、临时决策、跨应用切换)仍在适配中。
可以理解为,它们是从「任务逻辑」出发,向外扩展能力边界。
从桌面与系统切入,直接争夺操作入口
另一条更激进的路径,是 Marvis、Qoder Work、Cola 等产品所代表的「桌面系统层 Agent」。
它们的共同点不是任务类型,而是入口位置——直接贴近操作系统与本地环境。
Marvis 更偏「电脑管理层」,强调文件、应用与磁盘的系统化组织能力,本质是强化本地操作系统的理解与调度。Qoder Work 更强调「可执行能力」,包括屏幕感知、软件操作、业务系统串联,接近「数字员工」。Cola 则更进一步,把人格化系统、主动提醒与长期记忆融合进执行链路,使 Agent 不仅是工具,也是持续存在的交互层。
这一类产品的关键点在于它们不再停留在应用内部,而是尝试直接介入「用户如何使用电脑」这一层。
优势在于控制力更强,能够真正跨应用执行任务。但挑战同样明显,包括权限边界、稳定性、误操作风险,以及不同软件之间的兼容问题。
从办公生态切入:不重构系统,而是嵌入流程
与前两类不同,TRAE Work、WorkBuddy 走的是更现实的一条路径,不改变操作系统,而是嵌入已有工作流。
TRAE Work 深度接入飞书体系,使 Agent 直接进入文档、会议与协作链路;WorkBuddy 则依托腾讯生态(企业微信、文档、会议等),构建企业级工作台能力。
这一类产品的核心策略是「贴近真实组织结构」,而不是重新定义操作方式。它们的优势在于落地速度快,能够迅速接入权限与数据体系,进入企业级场景。
集体走向 AI Working
国内这一轮产品的演进,本质上是在围绕这一「执行闭环」,向更广泛的场景、组织方式与系统入口进行扩展。也正是在这个过程中,可以看到几个逐渐清晰的方向变化。
第一个趋势是从 AI Coding 到 AI Working。
代码之所以最早成为 Agent 的主战场,是因为软件开发天然适合被自动化。但 Coding Agent 成熟之后,它的能力很自然会向外迁移。
大多数知识工作本质上也有类似结构,文件就是上下文,浏览器就是信息入口,Office 文档就是交付物,定时任务就是工作流,审批和修改意见就是反馈机制,它们同样是可以被拆解、执行和验证的多步骤任务。
AI 不再只是帮程序员写代码,而是开始帮知识工作者完成那些长期被认为「必须人工处理」的工作:整理文件、生成报告、清洗数据、做 PPT、查资料、写周报、处理邮件、提取会议纪要、追踪行业信息。用户输入的也不再是「帮我写一个函数」,而是「帮我把这件事办完」。
所以这一阶段的竞争,是谁能更好地把 AI 从回答问题,推进到交付结果。
AI Coding 改变的是程序员写代码的方式,AI Working 改变的是普通人使用电脑完成工作的方式。
第二个趋势,是 Agent 从「一个助手」变成「一支团队」。
早期的 AI 助手更像一个能力很强的个人。用户提出问题,ai 负责回答,用户下达任务,ai 负责执行。但当任务变长、步骤变多、上下文变复杂之后,单个 Agent 很容易遇到瓶颈,它可能忘记目标,可能中途走偏,也可能在执行时缺少自我检查。
以 MiniMax 推出的 Agent Teams 为例,它允许用户创建多个具备不同角色设定的 Agent,并将它们组合成一个团队并行工作。

不同 Agent 可以同时从不同角度处理同一任务,比如一个负责信息收集,一个负责方案生成,一个负责执行与整合,最终再由协调机制汇总结果,从而提升复杂任务的处理效率与稳定性。
复杂任务正在被重新组织为一条多角色的流水线:从理解需求到规划、执行,再到验证结果,每一步都可以由不同的 Agent 接管,并在必要时继续细分为研究、设计、写作、代码与数据分析等更专门化的「岗位」。
Agent Team 的价值是让 AI 具备更稳定的工作结构,它可以并行处理多个子任务,缩短等待时间,同时让执行者和验证者相互制衡,减少低级错误;并且在任务失败时回滚、重试、换路径,把复杂工作沉淀成可复用的流程。
但 Agent Team 也不是万能解法。多 Agent 会带来更高的成本、更复杂的调度,以及更多不确定性。如果没有清晰的任务边界、权限控制和验收机制,多个 Agent 反而可能互相制造噪音。因此,真正关键的不是简单堆更多 Agent,而是产品能否把它们组织成可控的工作流。
这也是为什么「Agent Team」最终考验的不是界面,而是底层工程能力,长上下文、任务规划、工具调用、状态管理、日志追踪、错误恢复、权限审批,以及最后的结果验收。
当这些机制逐渐成熟,用户和 AI 的关系也会变化。用户可以像管理一个小团队一样设定目标、查看进度、打断错误、确认结果。AI 也从「帮手」变成「工作单元」,而产品则变成这些工作单元的调度系统。
第三个趋势,是 Agent 的位置正在从应用内部,上升到操作系统层。
IDE 是 Agent 的理想起点,因为开发者可以主动给它较高权限,也能理解它在做什么。但如果 Agent 要服务更广泛的人群,只能以 IDE 的形态存在是不够的。真正的工作发生在文件夹、浏览器、聊天软件、邮件、表格、日历、网盘、本地应用和跨设备协作中。这也是为什么国内这一轮产品越来越强调「本地」「桌面」「远程控制」「文件权限」「应用调用」。
所谓操作系统层,是在现有操作系统之上,长出一个新的意图执行层。
Agent 出现后,它开始帮你完成执行,Agent 可以帮你去找文件、打开网页、调用应用、读写文档、产出结果 .....
这让 Agent 逐渐触及操作系统最核心的三种能力结构。
一是上下文层面的能力,涉及对用户文件、历史记录、偏好以及当前任务的理解与整合,它决定系统能在多大程度上接近真实需求本身。
二是执行层面的能力,体现在对浏览器、文件系统、本地应用乃至远程设备的调用与操作上,它决定系统是否具备真正的行动闭环,而不仅仅停留在信息生成。
三是持续层面的能力,表现为在本地的常驻运行、任务的定时触发、跨设备的响应以及对用户习惯的长期沉淀,它决定系统能否从一次性工具转变为持续存在的工作入口。
从 AI Coding 到 AI Working,是能力边界的外扩;从单一 Agent 到 Agent Team,是组织方式的重构;而从应用内部到操作系统层,则是权力位置的上移。这三条趋势其实指向同一个结果,也就是 AI 正在从聊天框里的内容生成器,变成电脑里的任务执行者。
最后附上一份目前主要产品的关键信息横向对比表,供大家更直观感受。这类形态的产品也会继续不停冒出来。

注:
以上统计截止 2026 年 6 月 24 日
部分产品月度付费起步价按连续包月套餐起步价计算
此处的大部分国产常见模型有 GLM 系列、Deepseek 系列、MiniMax 系列、Kimi 系列等模型



