AI 原生界面,帮助 Agent 摘下烤箱手套弹钢琴。
文|何伊凡
编辑|钟云华
图片来源|视觉中国
想象这样一个凌晨:2031 年,你的书房角落有一台设备仍在无声运转——编写程序、处理邮件、审核合同、分析即时数据、安排日程、撰写文档。此刻你正在熟睡,当清晨醒来时,它已完成当日的大部分工作,你只需作出关键决策。
这台设备没有屏幕,也没有键盘。你无法用熟悉的方式与它交互,因为它根本不是给你用的,它是给 Agent 用的。
这幅画面勾勒出一个人类 " 退居二线 " 的未来,隐藏在它背后的,是一个更尖锐的问题:当 Agent 数量即将超过人类,为什么它们还在使用为人类设计的工具?你可以想象一位钢琴家被要求戴着烤箱手套弹奏莫扎特——手指明明具备超凡的灵活性,却被一层厚厚的隔热棉隔绝了与琴键的真实接触。
全球权威 IT 研究与顾问机构 Gartner 给出的预测正将这个矛盾推向临界点:到 2026 年底,40% 的企业应用将集成 AI Agent,而 2025 年这一比例还不足 5%。企业云存储巨头 Box 的首席执行官亚伦 · 莱维(Aaron Levie)在 2026 年 4 月一次访谈中更是直言,Agent 将渗透进几乎所有有经济价值的任务——审查每一份合同、承接大多数客服前线工作、审计每家公司的财务、生成几乎所有将被写出的代码。
当 Agent 的数量超过人类,它们理应拥有属于自己的 " 工位 ",而不是挤在为我们设计的桌椅上勉为其难。
一场为 Agent 量身打造的交互界面革命,已经悄然启幕。
从硬件看,OpenClaw 在全球技术圈引爆 " 龙虾 " 热后,深圳一家初创公司迅速推出了一款巴掌大小的硬件 Violoop。2026 年 3 月,这款产品在一个月内即完成数千万元种子及天使轮融资。用户使用时,只需用 HDMI 与 Type-C 线分别连接电脑和设备,它自带芯片与独立算力,通电后自主运行任务,不占用主机 CPU 与内存。它让 AI 能在本地持续运行、看屏幕、调用鼠标键盘操作,并自动处理文件、邮件、日程等任务。
这是一种 " 外接方案 " ——给普通电脑加一个专用外设,让它变身 AI 电脑。更激进的玩家选择彻底独立。深圳创业公司吾云创新(Zettlab)即将推出的 Agent Computer 没有屏幕、键盘、鼠标这 " 三件套 ",可以 24 小时运行,内置专用 AI 芯片与本地模型,开箱就能让 " 龙虾 " 自主运行。它能够理解、调用、编排个人数据,且这些数据都沉淀在硬件里,做到了隐私隔离。
传统硬件大厂也已入局。联想在 2026 年 3 月发布了 YOGA AI Mini 和 Think AI Tiny 两款 AI 原生智能终端,同样砍掉 " 三件套 ",搭载自研的 AI 原生操作系统 DingOS。它采用自然语言交互界面(Native UI),支持多模态指令理解,无需手动配置即可实现 AI 工作流的自动化部署。
2025 年初曾出现过 DeepSeek 一体机热潮,但这次完全不同。一体机本质是集软硬件于一体的 " 盒子 ",软件栈基本是 "Linux+ 大模型服务 + 前端界面 ",模型仅作为服务被调用。它安静等待用户发送指令,然后给出回答——人依然是所有行为的发起者,也是功能回路的中心。而 Agent Computer 的跃迁在于:从 " 面向人类的图形界面 " 走向 " 面向代理的多模态执行环境 "。
一个是让人更高效地指挥 AI,一个是让 AI 自主地完成任务。两者看似相近,实则是两个时代的分水岭。
在 GTC 2026 大会上,黄仁勋将 OpenClaw 比作 Linux,把 AI Agent 生态称为 35 万亿美元的市场。他更断言:" 今天,世界上的每家公司都需要有一个智能体系统战略,这是新的计算机。"
点击封面订阅全年杂志
之前我们探讨过 AI 原生一代用户,以及 AI 原生组织。这是 AI 原生系列第三篇—— AI 原生界面。将硬件与软件统一到交互界面的范畴来审视,一个清晰的脉络浮出水面:过去 60 年,人机交互的设计始终以 " 降低人类认知负担 " 为核心目标。从命令行到图形界面(GUI),从旋钮到触屏,每一次演进都在降低人类使用设备的门槛。
然而,这个延续 60 年的设计哲学,正在遭遇前所未有的挑战。
随着 AI Agent 的快速发展,未来的软件和硬件将同时服务于两类 " 用户 ":人类与 AI Agent。这不是对人类友好型架构的替代,而是对其扩展与升维—— " 双模态 " 交互范式将成为主流。
要理解这场变革的深度,需要先看清当下 GUI 的本质。
今天的人机交互界面具有四个鲜明特征:第一,它是可视化的,窗口、图标、按钮、菜单,所见即所得;第二,它是可直接操作的,点击、拖拽、滑动即可完成任务;第三,它遵循即时反馈原则,视觉、听觉、触觉随时响应;第四,它大量使用隐喻设计——桌面、文件夹、回收站等名称,都是借用人类在物理世界已有的心智模型。
为了降低认知负担,交互界面必然会 " 迁就 " 人类的认知模式:" 文件夹 " 掩盖了文件系统的实际结构," 拖拽 " 操作隐藏了底层的数据移动逻辑,图形化配置界面将复杂的参数简化为开关和滑块。
这种 " 迁就 " 是有代价的。正如真格基金投资总监钟天杰在一篇引发广泛讨论的文章中所言,GUI(图形用户界面)的存在本质上是人类认知缺陷的一个 " 补丁 " ——人类的注意力带宽极窄,工作记忆极浅,需要持续的视觉锚点才能维持任务状态。(《我们也许不该再投资 GUI 思维的软件公司》,文|真格基金投资总监钟天杰)
这个 " 补丁 " 对人类体贴入微,对 AI Agent 却充满敌意。
Agent 今天面对的正是这样的困境:它需要通过 " 拖拽文件到文件夹 " 这一连串视觉动作,才能完成本质上只是 " 将文件路径从 A 修改为 B" 的简单操作。每一层界面隐喻,都是一道语义翻译的关卡;每一次鼠标点击,都是一次不必要的身份伪装。
我们常用精美、简洁、流畅等词来形容交互界面,这些标准全部建立在人类认知局限性之上。一旦用户不是人类,所有优势瞬间归零。GUI 对 AI Agent 而言,就像一扇只能推开一半的门——一个拥有广阔视野的存在,被强迫透过门缝窥视整个房间。翻译是人类的长项,却是 AI 的枷锁,当它被迫以人类的方式行事时,每一步都在自我束缚。
人类有视觉、有双手、有持续感知能力,大语言模型却没有。它无法通过颜色和布局来理解界面,无法通过鼠标点击来触发操作,也无法通过动画来感知状态变化。每一次交互,Agent 都需要付出高昂的视觉理解成本——通过屏幕截图、目标检测、OCR 识别、语义理解等一系列复杂步骤,才能 " 看懂 " 一个对人类来说一目了然的界面。
效率差距触目惊心。2024 年 10 月,Anthropic 在 Claude 3.5 Sonnet 中首次引入 "Computer Use" 功能,通过 API 接口让 AI 能够像人类一样查看屏幕、移动光标、点击按钮。这项被官方称为 " 突破性 " 的技术,在 OSWorld 基准测试中仅取得 14.9% 的成功率。虽然远超此前 AI 的表现,但依然远低于人类 70%~75% 的水平。
这不是 AI 不够聪明,而是界面本身不是为它设计的。
到 2025 年 1 月,OpenAI 推出的 Operator 及其核心模型 CUA(Computer-Using Agent)将技术水准提升到新高度。与 Claude 依赖 API 调用的方式不同,CUA 融合 GPT-4o 视觉能力与强化学习技术,直接与 GUI 交互。在 WebVoyager 基准测试中,任务成功率达到 87%,几乎追平人类表现;OSWorld 测试 38.1% 的成绩更是将此前的技术天花板推高了近一倍。
但这依然是在让 AI" 伪装 " 成人类——通过计算机视觉解析屏幕、模拟鼠标点击和键盘输入。给马车装上喷气发动机,它或许能跑得更快,但终究不是飞机。这是务实的过渡方案,而非终局。
真正的终局,是重新设计交互的底层逻辑。
从 2024 年底开始,围绕 AI Agent 的一系列开放协议密集出现。它们的共同目标很明确:为不断 " 生长 " 的 Agent 生态建立一套可通用、可协作的语言与标准。2025 年 12 月,Google 开源了 A2UI(Agent to UI)协议,提出了一个新思路——让 AI Agent 学会 " 说 UI 的语言 "。通过一种安全、声明式的格式,将 UI 需求发送给前端应用,用来渲染与交互,这是在定义 Agent 描述用户界面的全新标准。
未来的交互界面,无需再模拟鼠标或键盘的操作。一个更大胆的预言来自 Nothing 首席执行官裴宇(Carl Pei),他认为智能手机 App 将逐渐消失,取而代之的是更具主动性、更智能的 AI Agent。未来的愿景是 "Intent-based UI" ——系统不再显示成排的图标,而是直接根据用户自然语言意图生成交互界面。
对着手机说句话就能订咖啡、买机票,这都是最初级的阶段。下一阶段,Agent 将成为主动的生活助手,而非被动的工具。而到了最强大的阶段,系统甚至会浮现你从未想过要提的需求——它会提出连我们自己都没意识到的想要的东西。
这意味着界面本身必须发生根本性的变化。裴宇认为,人工智能代理不应该像机器人一样在菜单上点击,假装成人类。更专业的描述是:每个功能都提供完善的 API 接口,Agent 可以直接调用而无需通过界面理解;所有信息都以机器可解析的格式提供,而非仅渲染为可视化界面。
这个转变的本质,是从 " 视觉中介 " 到 " 语义直达 "。
想象一家餐厅:传统 GUI 让人类顾客只能通过菜单点菜,菜单经过精心设计、排版美观,但始终是一个间接的翻译层。而 API 则是让顾客直接进入后厨,精确告知厨师每一道菜的配料、火候和摆盘要求——没有中间商,没有信息损耗。Agent 需要的正是这种 " 直达后厨 " 的能力,而不是在精美的菜单封面上消磨时间。这种转变不是锦上添花,而是当 Agent 数量爆发式增长后的必然选择。
当然,向 Agent 友好型界面的转变并不缺少挑战。最直接的挑战来自安全与隐私——当 Agent 获得系统级操作权限时,如何验证其身份、分配合理的权限、追溯其行为责任,都是亟待解决的核心问题——如果 Agent 可以同时访问你的银行账户、医疗记录和工作邮件,那么一道安全漏洞的代价将远超传统的数据泄露。
尽管未来隐藏着不安,但我们无法拒绝它降临。五年之内,软件和硬件的交互都需要同时服务于两类用户:一类是有视觉、有双手、需要视觉锚点的人类;另一类是没有视觉、没有双手,但拥有超强推理和规划能力的 AI Agent。
这不再是 " 人机交互 " 的问题,而是 " 人— Agent —机 " 三方共存的复杂生态系统设计问题。
从 " 人适应机器 " 到 " 机器适应人 ",再到 " 机器适应 Agent" ——人机交互的历史,正在翻开最具想象力,也最不可预测的一页。
新闻热线 & 投稿邮箱:tougao@iceo.com.cn


登录后才可以发布评论哦
打开小程序可以发布评论哦