
Google 为其 Gemini 3.5 Flash 模型引入了一项名为 " 电脑使用(Computer Use)" 的新能力。该功能允许 AI 系统像人类用户一样,通过视觉理解直接操控电脑屏幕、鼠标和键盘,标志着 AI 在协助数字任务方面取得重大进展。
视觉交互取代传统 API 集成
与以往依赖代码或 API 集成的自动化方案不同,Gemini 3.5 Flash 通过截取屏幕截图,分析布局、识别按钮和文本字段,进而生成结构化的动作指令。这些指令被转换为实际的鼠标移动和按键操作,形成 " 观察 - 决策 - 执行 " 的闭环。
由于模型通过人类使用的相同视觉界面进行操作,无需开发者为每个应用程序构建特定的集成接口,因此有望兼容更广泛的软件工具和网站,包括那些缺乏现代 API 的传统遗留系统。
尽管该技术借鉴了 Anthropic 在 Claude 模型中的研究成果,但 Google 针对 Gemini 架构进行了优化。模型同时接收视觉截图和基于文本的任务描述,并在执行过程中根据结果动态调整策略。
应用场景与性能表现
Gemini 3.5 Flash 在速度与推理能力之间取得了平衡,响应速度足以维持自然的交互流程。其实际应用前景广泛:
软件开发:自动化跨应用的重复性测试流程;
客户服务:处理企业软件系统中的标准程序;
数据录入:辅助填写涉及多个程序的复杂表单;
创意工作:自动化设计软件或视频编辑工具中的常规步骤。
在演示中,该模型成功根据语音指令整理电子表格数据、应用公式并创建图表;另一示例展示了其与浏览器交互,进行研究、填写表格并将结果编译成文档。这些案例突显了系统将多步骤串联完成复杂目标的能力。
早期版本的局限与安全护栏
Google 强调,此次发布仅为早期版本。尽管在标准基准测试中成功率合理,但模型仍会出现误解复杂视觉布局、陷入意外界面状态或未能识别任务完成等情况,偶尔需要人工纠正。
安全性方面,系统内置多层保护机制。用户拥有完全控制权,可随时中断 AI 操作。对于访问私人信息、金融交易或未获许可修改系统设置等敏感请求,模型将予以拒绝。
目前,开发者可通过 Google AI Studio 平台和 Gemini API 访问该功能,通过提供截图和任务描述来集成 " 电脑使用 " 能力。Google 计划根据反馈持续改进准确性、扩大支持范围并增强复杂推理能力,以更好地处理意外情况。
随着 AI 系统从生成内容转向在计算环境中采取实际行动," 电脑使用 " 功能有望降低自动化门槛,使组织能在无需大量编程专业知识的情况下实现工作流标准化,从而改变人们委托数字任务的方式。
【星途科讯 图文丨三一一 首发于 ZAKER 科技,转载请注明出处】


登录后才可以发布评论哦
打开小程序可以发布评论哦