IT之家 3小时前
谷歌安卓桌面版重构鼠标光标交互,让AI听懂“这个/那个”比划
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 5 月 13 日消息,在今天凌晨举办的   2026 年 The Android Show | I/O Edition 活动结束后,谷歌 DeepMind 发布博文,详细介绍了适用于 Googlebook 的 Magic Pointer 功能。

定位方面,Magic Pointer 是光标交互功能,不只识别 " 指到了什么 ",还要理解 " 为什么这对用户重要 "。该功能的核心目标是尽量不打断原有操作流,让 AI 主动进入用户当前使用的工具和页面。

其理念是用 " 更简单、更直观的交互方式 " 取代 " 文字过多的提示 "。

谷歌在博文中指出,当前大部分 AI 工具都停留在独立界面中,用户常常需要把网页、文档、图片或数据复制、拖拽到 AI 窗口里,再输入完整提示词。

这种使用方式会打断工作节奏,新方案希望反过来,让 AI 直接出现在用户正在使用的工具里,依据指针位置和语音命令理解上下文。

DeepMind 总结了 4 条核心原则:

第 1 条是 " 保持工作流 ",即 AI 能力应覆盖各类应用场景,例如指向 PDF 后要求生成要点摘要并粘贴进邮件,悬停统计表格后要求生成饼图,选中菜谱后要求把全部配料翻倍。

第 2 条是 " 边指边说 ",通过捕捉指针周围的视觉与语义信息,让系统知道用户究竟想处理哪个词、哪段文字、哪块图片或哪段代码。

第 3 条强调 " 这个 "" 那个 " 的自然表达方式。人与人交流时,本就依赖手势和共享语境,不必每次都说完整长句。若 AI 能同时理解上下文、指向动作和语音,用户只需说 " 改一下这个 " 或 " 把那个移到这里 ",也能发出复杂请求。

第 4 条原则则是把像素转化为可操作实体,比如地点、日期、物体等,从而让一张潦草便签变成交互式待办清单,让旅行视频中的餐厅画面直接对应预订链接。

谷歌还在 AI Studio 上线 2 个演示,并正把这项能力逐步引入 Chrome 中的 Gemini,让用户直接围绕网页局部内容发问与操作。IT 之家附上相关演示如下:

参考

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 it之家 deepmind the
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论