
智东西
作者 | 杨京丽
编辑 | 李水青
智东西 4 月 14 日消息,今天,MiniMax 为其桌面端 Agent 上线两项新功能:Pocket(Beta)和 Computer Use。简单来说,Pocket 让用户可以在飞书、微信、Slack 等主流 IM 里,远程给 Agent 下指令,Computer Use 则能让 Agent 能像人一样看屏幕、点鼠标、敲键盘,直接操作电脑上的本地软件和系统设置。
上周,MiniMax 发布了命令行工具 MMX-CLI,让 Agent 可以在终端中调用其全模态能力。今天这次更新补上了图形界面侧的操作能力,并通过 IM 构建了一个统一的远程入口,用户不在电脑前,也能通过手机随时唤起 Agent 干活。
一、Pocket 打通 IM 远程操控,Computer Use 接管图形界面
Pocket 是一项 IM 接入能力,用户在飞书、微信等 IM 中唤起 Pocket 发送指令,Agent 即可在其电脑上执行任务,完成后将结果回传至对话。核心场景是远程操控,用户不在电脑前,也能通过手机调度桌面 Agent。
Computer Use 则让 Agent 具备操作图形界面的能力,通过截图识别屏幕内容,模拟鼠标和键盘操作本地软件。那些没有命令行接口的任务,比如改系统偏好设置、操作本地设计工具、在多个应用间手动搬运数据,现在都可以交给 Agent 完成。
MiniMax 展示了几个 IM 与 Computer Use 组合使用的场景。
1、远程找文件。
提示词:帮我看下我桌面上是不是有一个 2025 report 的 PDF?找到并发给我。
Agent 远程找文件(来源:MiniMax)
这是一个比较基础的应用场景。Agent 在用户电脑桌面上定位到目标文件后,直接回传到 IM 对话中。整个流程不需要用户打开电脑。从实际演示来看,Agent 能准确识别文件名中的关键词并完成定位,通过对话将正确的文件发给用户。
2、操作本地应用与系统设置,执行定时任务。
提示词:帮我打开系统设置,找到锁定屏幕,把不活跃时启动屏幕保护程序设为永不。然后打开 Pocket 客户端执行每日定时任务,完成后给我一张截图。

由于系统偏好设置没有公开的命令行接口,这些操作只能通过图形界面完成。Agent 基于 Computer Use 打开系统设置、定位到 " 锁定屏幕 " 面板、调整下拉菜单,随后启动客户端执行任务,最后截图回传。整个过程可在 IM 中完整查看 Agent 的每一步操作,后续也按照要求完成了定时任务。
二、技术实现:桌面操作拆分,可调度工具总数超 60 个
目前主流的 Computer Use 实现方式是给 Agent 一个统一的 "computer" 工具,所有操作都靠截图加像素坐标完成,先截一张屏幕,识别出目标位置的像素坐标,再模拟点击。这种方式结构简单,但精度有限,比如让模型去数像素点一个按钮,不如直接调用系统接口来得准。
MiniMax 的做法是把桌面操作拆分成四个独立的工作:
1、Desktop Control 负责截图、鼠标操作(含修饰键组合)、键盘输入、滚动、拖拽;
2、Window Manager 负责窗口列表查询、聚焦、最小化 / 最大化、关闭、移动缩放及应用启动;
3、Browser Engine 负责 DOM 操作、CSS 选择器定位、JavaScript 执行和结构化导航;
4、Clipboard 负责系统剪贴板读写。
Agent 执行任务时会根据场景自动选择最合适的工具,比如切换窗口直接调系统接口,不用先截图再找窗口按钮在哪。这四套工具再加上飞书、企业微信、mmx 三套平台工具以及命令行工具,Agent 可调度的工具总数超过 60 个。
屏幕适配方面,不同用户的显示器分辨率差异很大,同一个按钮在 4K 屏上和 1080p 屏上的像素位置完全不同。MiniMax 的处理方式是让模型只输出相对位置,由系统自动换算成实际坐标。截图也会根据模型能处理的画面上限做缩放,避免高分屏信息过载、低分屏画面模糊。
三、截图验证每一步,敏感操作需 IM 确认
真实任务往往需要数十步甚至上百步连续操作,单步偏差可能导致后续全部失败。MiniMax 为此给每一步桌面操作接入了验证环节:操作执行完后立刻自动截图,由模型判断该步是否成功。
符合预期则推进下一步;未达预期则进入诊断流程,识别失败原因并尝试替代方案,比如鼠标点不到的按钮换用键盘快捷键。若在一定重试次数内仍未解决,Agent 会主动告知用户具体卡在哪一步,而非继续盲目尝试。
安全权限方面,当 Agent 准备执行文件删除等敏感操作时,会先暂停,将该步的具体内容推送到用户的 IM 对话中。在飞书和 Slack 中会弹出一张交互卡片,用户点击即可授权或拒绝;微信等不支持交互组件的平台则通过文本指令完成授权。任务执行过程中,用户也可随时发送指令中止 Agent。
结语:Agent 操作电脑从演示走向产品化
从 OpenClaw 爆火,Anthropic 推出 Computer Use,到如今 MiniMax 将类似能力落地到桌面端并接入 IM,AI Agent" 操作电脑 " 正在从技术演示走向实际场景。但从目前各家的进展来看,这项能力仍处于早期,复杂界面下的识别精度、长任务中的稳定性、面对陌生软件时的泛化能力,都是共性难题。
MiniMax 这次更新提供了一条具体的产品化路径:用 IM 做入口降低使用门槛,用工具域拆分提升操作精度,用逐步验证兜住多步任务的可靠性。至于这套方案在真实用户场景中能走多远,还需要更大范围的使用反馈来验证。
来源:MiniMax


登录后才可以发布评论哦
打开小程序可以发布评论哦