你的屏幕和键盘,正在拖垮AI的智商

AI 原生界面，帮助 Agent 摘下烤箱手套弹钢琴。

文｜何伊凡

编辑｜钟云华

图片来源｜视觉中国

想象这样一个凌晨：2031 年，你的书房角落有一台设备仍在无声运转——编写程序、处理邮件、审核合同、分析即时数据、安排日程、撰写文档。此刻你正在熟睡，当清晨醒来时，它已完成当日的大部分工作，你只需作出关键决策。

这台设备没有屏幕，也没有键盘。你无法用熟悉的方式与它交互，因为它根本不是给你用的，它是给 Agent 用的。

这幅画面勾勒出一个人类 " 退居二线 " 的未来，隐藏在它背后的，是一个更尖锐的问题：当 Agent 数量即将超过人类，为什么它们还在使用为人类设计的工具？你可以想象一位钢琴家被要求戴着烤箱手套弹奏莫扎特——手指明明具备超凡的灵活性，却被一层厚厚的隔热棉隔绝了与琴键的真实接触。

全球权威 IT 研究与顾问机构 Gartner 给出的预测正将这个矛盾推向临界点：到 2026 年底，40% 的企业应用将集成 AI Agent，而 2025 年这一比例还不足 5%。企业云存储巨头 Box 的首席执行官亚伦 · 莱维（Aaron Levie）在 2026 年 4 月一次访谈中更是直言，Agent 将渗透进几乎所有有经济价值的任务——审查每一份合同、承接大多数客服前线工作、审计每家公司的财务、生成几乎所有将被写出的代码。

当 Agent 的数量超过人类，它们理应拥有属于自己的 " 工位 "，而不是挤在为我们设计的桌椅上勉为其难。

一场为 Agent 量身打造的交互界面革命，已经悄然启幕。

从硬件看，OpenClaw 在全球技术圈引爆 " 龙虾 " 热后，深圳一家初创公司迅速推出了一款巴掌大小的硬件 Violoop。2026 年 3 月，这款产品在一个月内即完成数千万元种子及天使轮融资。用户使用时，只需用 HDMI 与 Type-C 线分别连接电脑和设备，它自带芯片与独立算力，通电后自主运行任务，不占用主机 CPU 与内存。它让 AI 能在本地持续运行、看屏幕、调用鼠标键盘操作，并自动处理文件、邮件、日程等任务。

这是一种 " 外接方案 " ——给普通电脑加一个专用外设，让它变身 AI 电脑。更激进的玩家选择彻底独立。深圳创业公司吾云创新（Zettlab）即将推出的 Agent Computer 没有屏幕、键盘、鼠标这 " 三件套 "，可以 24 小时运行，内置专用 AI 芯片与本地模型，开箱就能让 " 龙虾 " 自主运行。它能够理解、调用、编排个人数据，且这些数据都沉淀在硬件里，做到了隐私隔离。

传统硬件大厂也已入局。联想在 2026 年 3 月发布了 YOGA AI Mini 和 Think AI Tiny 两款 AI 原生智能终端，同样砍掉 " 三件套 "，搭载自研的 AI 原生操作系统 DingOS。它采用自然语言交互界面（Native UI），支持多模态指令理解，无需手动配置即可实现 AI 工作流的自动化部署。

2025 年初曾出现过 DeepSeek 一体机热潮，但这次完全不同。一体机本质是集软硬件于一体的 " 盒子 "，软件栈基本是 "Linux+ 大模型服务 + 前端界面 "，模型仅作为服务被调用。它安静等待用户发送指令，然后给出回答——人依然是所有行为的发起者，也是功能回路的中心。而 Agent Computer 的跃迁在于：从 " 面向人类的图形界面 " 走向 " 面向代理的多模态执行环境 "。

一个是让人更高效地指挥 AI，一个是让 AI 自主地完成任务。两者看似相近，实则是两个时代的分水岭。

在 GTC 2026 大会上，黄仁勋将 OpenClaw 比作 Linux，把 AI Agent 生态称为 35 万亿美元的市场。他更断言：" 今天，世界上的每家公司都需要有一个智能体系统战略，这是新的计算机。"

点击封面订阅全年杂志

之前我们探讨过 AI 原生一代用户，以及 AI 原生组织。这是 AI 原生系列第三篇—— AI 原生界面。将硬件与软件统一到交互界面的范畴来审视，一个清晰的脉络浮出水面：过去 60 年，人机交互的设计始终以 " 降低人类认知负担 " 为核心目标。从命令行到图形界面（GUI），从旋钮到触屏，每一次演进都在降低人类使用设备的门槛。

然而，这个延续 60 年的设计哲学，正在遭遇前所未有的挑战。

随着 AI Agent 的快速发展，未来的软件和硬件将同时服务于两类 " 用户 "：人类与 AI Agent。这不是对人类友好型架构的替代，而是对其扩展与升维—— " 双模态 " 交互范式将成为主流。

要理解这场变革的深度，需要先看清当下 GUI 的本质。

今天的人机交互界面具有四个鲜明特征：第一，它是可视化的，窗口、图标、按钮、菜单，所见即所得；第二，它是可直接操作的，点击、拖拽、滑动即可完成任务；第三，它遵循即时反馈原则，视觉、听觉、触觉随时响应；第四，它大量使用隐喻设计——桌面、文件夹、回收站等名称，都是借用人类在物理世界已有的心智模型。

为了降低认知负担，交互界面必然会 " 迁就 " 人类的认知模式：" 文件夹 " 掩盖了文件系统的实际结构，" 拖拽 " 操作隐藏了底层的数据移动逻辑，图形化配置界面将复杂的参数简化为开关和滑块。

这种 " 迁就 " 是有代价的。正如真格基金投资总监钟天杰在一篇引发广泛讨论的文章中所言，GUI（图形用户界面）的存在本质上是人类认知缺陷的一个 " 补丁 " ——人类的注意力带宽极窄，工作记忆极浅，需要持续的视觉锚点才能维持任务状态。（《我们也许不该再投资 GUI 思维的软件公司》，文｜真格基金投资总监钟天杰）

这个 " 补丁 " 对人类体贴入微，对 AI Agent 却充满敌意。

Agent 今天面对的正是这样的困境：它需要通过 " 拖拽文件到文件夹 " 这一连串视觉动作，才能完成本质上只是 " 将文件路径从 A 修改为 B" 的简单操作。每一层界面隐喻，都是一道语义翻译的关卡；每一次鼠标点击，都是一次不必要的身份伪装。

我们常用精美、简洁、流畅等词来形容交互界面，这些标准全部建立在人类认知局限性之上。一旦用户不是人类，所有优势瞬间归零。GUI 对 AI Agent 而言，就像一扇只能推开一半的门——一个拥有广阔视野的存在，被强迫透过门缝窥视整个房间。翻译是人类的长项，却是 AI 的枷锁，当它被迫以人类的方式行事时，每一步都在自我束缚。

人类有视觉、有双手、有持续感知能力，大语言模型却没有。它无法通过颜色和布局来理解界面，无法通过鼠标点击来触发操作，也无法通过动画来感知状态变化。每一次交互，Agent 都需要付出高昂的视觉理解成本——通过屏幕截图、目标检测、OCR 识别、语义理解等一系列复杂步骤，才能 " 看懂 " 一个对人类来说一目了然的界面。

效率差距触目惊心。2024 年 10 月，Anthropic 在 Claude 3.5 Sonnet 中首次引入 "Computer Use" 功能，通过 API 接口让 AI 能够像人类一样查看屏幕、移动光标、点击按钮。这项被官方称为 " 突破性 " 的技术，在 OSWorld 基准测试中仅取得 14.9% 的成功率。虽然远超此前 AI 的表现，但依然远低于人类 70%~75% 的水平。

这不是 AI 不够聪明，而是界面本身不是为它设计的。

到 2025 年 1 月，OpenAI 推出的 Operator 及其核心模型 CUA（Computer-Using Agent）将技术水准提升到新高度。与 Claude 依赖 API 调用的方式不同，CUA 融合 GPT-4o 视觉能力与强化学习技术，直接与 GUI 交互。在 WebVoyager 基准测试中，任务成功率达到 87%，几乎追平人类表现；OSWorld 测试 38.1% 的成绩更是将此前的技术天花板推高了近一倍。

但这依然是在让 AI" 伪装 " 成人类——通过计算机视觉解析屏幕、模拟鼠标点击和键盘输入。给马车装上喷气发动机，它或许能跑得更快，但终究不是飞机。这是务实的过渡方案，而非终局。

真正的终局，是重新设计交互的底层逻辑。

从 2024 年底开始，围绕 AI Agent 的一系列开放协议密集出现。它们的共同目标很明确：为不断 " 生长 " 的 Agent 生态建立一套可通用、可协作的语言与标准。2025 年 12 月，Google 开源了 A2UI（Agent to UI）协议，提出了一个新思路——让 AI Agent 学会 " 说 UI 的语言 "。通过一种安全、声明式的格式，将 UI 需求发送给前端应用，用来渲染与交互，这是在定义 Agent 描述用户界面的全新标准。

未来的交互界面，无需再模拟鼠标或键盘的操作。一个更大胆的预言来自 Nothing 首席执行官裴宇（Carl Pei），他认为智能手机 App 将逐渐消失，取而代之的是更具主动性、更智能的 AI Agent。未来的愿景是 "Intent-based UI" ——系统不再显示成排的图标，而是直接根据用户自然语言意图生成交互界面。

对着手机说句话就能订咖啡、买机票，这都是最初级的阶段。下一阶段，Agent 将成为主动的生活助手，而非被动的工具。而到了最强大的阶段，系统甚至会浮现你从未想过要提的需求——它会提出连我们自己都没意识到的想要的东西。

这意味着界面本身必须发生根本性的变化。裴宇认为，人工智能代理不应该像机器人一样在菜单上点击，假装成人类。更专业的描述是：每个功能都提供完善的 API 接口，Agent 可以直接调用而无需通过界面理解；所有信息都以机器可解析的格式提供，而非仅渲染为可视化界面。

这个转变的本质，是从 " 视觉中介 " 到 " 语义直达 "。

想象一家餐厅：传统 GUI 让人类顾客只能通过菜单点菜，菜单经过精心设计、排版美观，但始终是一个间接的翻译层。而 API 则是让顾客直接进入后厨，精确告知厨师每一道菜的配料、火候和摆盘要求——没有中间商，没有信息损耗。Agent 需要的正是这种 " 直达后厨 " 的能力，而不是在精美的菜单封面上消磨时间。这种转变不是锦上添花，而是当 Agent 数量爆发式增长后的必然选择。

当然，向 Agent 友好型界面的转变并不缺少挑战。最直接的挑战来自安全与隐私——当 Agent 获得系统级操作权限时，如何验证其身份、分配合理的权限、追溯其行为责任，都是亟待解决的核心问题——如果 Agent 可以同时访问你的银行账户、医疗记录和工作邮件，那么一道安全漏洞的代价将远超传统的数据泄露。

尽管未来隐藏着不安，但我们无法拒绝它降临。五年之内，软件和硬件的交互都需要同时服务于两类用户：一类是有视觉、有双手、需要视觉锚点的人类；另一类是没有视觉、没有双手，但拥有超强推理和规划能力的 AI Agent。

这不再是 " 人机交互 " 的问题，而是 " 人— Agent —机 " 三方共存的复杂生态系统设计问题。

从 " 人适应机器 " 到 " 机器适应人 "，再到 " 机器适应 Agent" ——人机交互的历史，正在翻开最具想象力，也最不可预测的一页。

新闻热线 & 投稿邮箱：tougao@iceo.com.cn

宙世代

一起剪

相关标签