Google Gemini 3.5 Flash上线视觉操控功能

Google 为其 Gemini 3.5 Flash 模型引入了一项名为 " 电脑使用（Computer Use）" 的新能力。该功能允许 AI 系统像人类用户一样，通过视觉理解直接操控电脑屏幕、鼠标和键盘，标志着 AI 在协助数字任务方面取得重大进展。

视觉交互取代传统 API 集成

与以往依赖代码或 API 集成的自动化方案不同，Gemini 3.5 Flash 通过截取屏幕截图，分析布局、识别按钮和文本字段，进而生成结构化的动作指令。这些指令被转换为实际的鼠标移动和按键操作，形成 " 观察 - 决策 - 执行 " 的闭环。

由于模型通过人类使用的相同视觉界面进行操作，无需开发者为每个应用程序构建特定的集成接口，因此有望兼容更广泛的软件工具和网站，包括那些缺乏现代 API 的传统遗留系统。

尽管该技术借鉴了 Anthropic 在 Claude 模型中的研究成果，但 Google 针对 Gemini 架构进行了优化。模型同时接收视觉截图和基于文本的任务描述，并在执行过程中根据结果动态调整策略。

应用场景与性能表现

Gemini 3.5 Flash 在速度与推理能力之间取得了平衡，响应速度足以维持自然的交互流程。其实际应用前景广泛：

软件开发：自动化跨应用的重复性测试流程；

客户服务：处理企业软件系统中的标准程序；

数据录入：辅助填写涉及多个程序的复杂表单；

创意工作：自动化设计软件或视频编辑工具中的常规步骤。

在演示中，该模型成功根据语音指令整理电子表格数据、应用公式并创建图表；另一示例展示了其与浏览器交互，进行研究、填写表格并将结果编译成文档。这些案例突显了系统将多步骤串联完成复杂目标的能力。

早期版本的局限与安全护栏

Google 强调，此次发布仅为早期版本。尽管在标准基准测试中成功率合理，但模型仍会出现误解复杂视觉布局、陷入意外界面状态或未能识别任务完成等情况，偶尔需要人工纠正。

安全性方面，系统内置多层保护机制。用户拥有完全控制权，可随时中断 AI 操作。对于访问私人信息、金融交易或未获许可修改系统设置等敏感请求，模型将予以拒绝。

目前，开发者可通过 Google AI Studio 平台和 Gemini API 访问该功能，通过提供截图和任务描述来集成 " 电脑使用 " 能力。Google 计划根据反馈持续改进准确性、扩大支持范围并增强复杂推理能力，以更好地处理意外情况。

随着 AI 系统从生成内容转向在计算环境中采取实际行动，" 电脑使用 " 功能有望降低自动化门槛，使组织能在无需大量编程专业知识的情况下实现工作流标准化，从而改变人们委托数字任务的方式。

【星途科讯图文丨三一一首发于 ZAKER 科技，转载请注明出处】

宙世代