IT之家 前天
谷歌发布Gemini 2.5 Computer Use模型:专攻浏览器交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为 "Gemini 2.5 计算机使用 "(Gemini 2.5 Computer Use)的模型,利用 " 视觉理解与推理能力 " 分析用户的请求,并完成相应任务,例如填写并提交表单。

该模型可用于用户界面测试,或用于操作那些仅面向人类用户、未提供 API 或其他直接接口的系统。此前,此类模型已应用于谷歌 AI 模式(AI Mode)中的智能体功能,以及研究原型项目 "Mariner",该项目利用 AI 智能体在浏览器中自主执行任务,例如根据食材清单自动将商品添加到购物车。

谷歌此次发布恰逢 OpenAI 在其年度开发者日(Dev Day)宣布推出 ChatGPT 新应用的次日。OpenAI 正持续聚焦其 "ChatGPT 智能体 "(ChatGPT Agent)功能,该功能可代表用户完成复杂任务。与此同时,Anthropic 公司已于去年发布了其 Claude AI 模型的 " 计算机使用 "(computer use)版本。

IT 之家注意到,谷歌发布了一些演示视频,展示了 " 计算机使用 " 工具的实际运行效果,并注明视频播放速度已加快至 3 倍。谷歌表示,其计算机使用模型 " 在多个网页和移动端基准测试中优于现有领先方案 "。与 ChatGPT 智能体和 Anthropic 的计算机使用工具不同,谷歌的新 AI 模型仅限于访问浏览器环境,无法操控整个计算机系统。谷歌特别指出,该模型 " 尚未针对桌面操作系统层级的控制进行优化 ",目前支持 13 种操作,包括打开网页浏览器、输入文本,以及拖放页面元素等。

Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 向开发者开放。此外,Browserbase 平台也提供了在线演示,用户可实时观看该模型完成诸如 " 玩一局 2048 游戏 " 或 " 浏览 Hacker News 上的热门讨论 " 等任务。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai it之家 计算机 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论