OpenAI押注“音频优先”AI，剑指下一代无屏设备

当大多数 AI 公司仍在优化 " 屏幕里的体验 " 时，OpenAI 正在做一件反直觉的事：把屏幕拿走。

据多家外媒披露，OpenAI 的新一代音频模型预计将在 2026 年第一季度发布。此前，OpenAI 已在内部重组多个工程、产品和研究团队，把资源集中投向音频 AI；以 65 亿美元收购由前苹果首席设计官 Jony Ive 联合创立的 io 公司；并围绕一款 " 始终在线、以语音为核心、完全无屏 " 的消费级设备展开长期规划。

这并不是一次单点创新，而是一种新的假设：如果 AI 真正理解你所在的环境、你正在做的事，它是否还需要一个屏幕，来证明自己的存在？

在 OpenAI 的设想中，下一代设备不再要求你低头、滑动、确认，而是像一个 " 环境中的存在 "，通过聆听和观察，在合适的时刻介入。Sam Altman 直言，屏幕限制了 AI 的可能性；而 Jony Ive 则将这一项目视为 " 一场新的设计运动 "。

实际上，这样的转向并非只有 OpenAI 一家公司在做。从谷歌的音频概览、Meta 的智能眼镜，到特斯拉车内的对话式 AI，弱化屏幕、强化音频与环境感知，似乎正成为硅谷高度一致的方向选择。

那么，这场集体转向，究竟在押注什么？

01 先改模型，再造设备：OpenAI 的无屏布局

从动作层面看，OpenAI 对音频方向的投入已经不再是 " 功能优化 "，而是一次自上而下的战略重排。

报道称，相关工作由前 Character.ai 研究员 Kundan Kumar 牵头，产品研究主管 Ben Newhouse 与 ChatGPT 产品经理 Jackie Shannon 深度参与，几条研究、产品与工程线被统一拉到同一目标之下：为未来的无屏设备打造真正可用的音频 " 操作系统 "。

据知情人士透露，这一团队已经研发出全新的音频模型架构，在语音自然度、情感表达和回答准确性上都有明显提升，并首次支持实时打断和双向对话——模型甚至可以在用户还没说完时作出回应。OpenAI 计划在 2026 年第一季度发布这一代音频模型，用以弥补当前语音模型在速度和可靠性上仍落后于文本模型的短板。

这一技术布局，正好对应着 OpenAI 更宏大的硬件野心。

此前《华尔街 · 日报》披露的一次内部员工通话显示，Jony Ive 与 Sam Altman 已为首款产品定下清晰方向：它既不是手机，也不是眼镜，而是一款完全无屏的 " 第三核心设备 "，可以放入口袋，或与 MacBook 和 iPhone 一起摆在桌面上使用。据了解，该硬件设备很可能是一支 "AI 笔 "。

这款设备强调对环境和用户情境的持续感知，而不是依赖任何视觉界面。Altman 在内部测试 Ive 的原型后，甚至将其称为 " 世界上最酷的科技产品 "，并认为这笔交易可能为公司增加 1 万亿美元的价值。该产品的目标是在 2026 年底前发货，并计划以 " 比任何公司推出新产品达到一亿台的速度更快 " 的速度，达到 1 亿台销量。

总而言之，无论最终以智能笔、智能音箱、桌面设备还是其他形态出现，OpenAI 想要的并不是一件新玩具，而是一个在日常生活中地位足以与智能手机比肩的 " 超级 AI 助手 "。

02 弱化屏幕：一次硅谷高度一致的集体转向

如果只看 OpenAI 的硬件计划，很容易把它理解为一次激进的产品实验。但把视角拉远，会发现这是一个更广泛的行业共识。这背后主要有三点原因：

第一，屏幕的创新空间正在变窄。过去十年，几乎所有主流交互创新——多点触控、全面屏、手势操作——都已经被消化殆尽。继续围绕屏幕做文章，边际提升越来越小，却越来越昂贵。

第二，注意力成为最稀缺的资源。用户的 " 看屏幕时间 " 已经高度饱和。再增加一个需要持续注视的设备，只会加剧竞争，而不是创造新的使用场景。

第三，AI 的角色正在发生变化。当系统从 " 被调用的工具 " 变成 " 持续协助的智能体 "，屏幕反而成了阻碍。真正的环境智能，理想状态下应该在后台工作，只在必要时出现。

正是在这样的背景下，音频被重新推到舞台中央。它不要求视觉占用，不需要学习复杂界面，更容易融入走路、开车、做饭、聊天这些真实生活场景。这也是为什么， OpenAI 、谷歌、 Meta 、特斯拉正在不约而同地，把 " 对话 " 当作下一代计算入口。

03 无屏背后：技术难点的集中爆发

无屏，并不意味着更简单，恰恰相反，它把所有复杂性集中在了后台。

首先是 " 何时说话，何时保持沉默 " 的问题。所谓的轮次控制，需要同时解决语音活动检测、说话人识别、优雅打断以及上下文理解。在嘈杂、多说话人的真实环境中，一次误判就足以消耗用户信任。

其次是始终在线带来的电力与算力压力。设备必须依赖超低功耗传感器判断 " 是否需要唤醒 "，而真正的多模态推理则在本地与云端之间动态切换。这要求极端的模型压缩、内存优化，以及对延迟的精细管理。

再往后，是隐私与感知范围的博弈。摄像头能提供关键上下文，但也放大了侵入感。物理静音、遮挡机制、清晰可感知的权限控制，几乎决定了这类设备能否被长期接受。

音频优先设备失败的原因，往往不是 " 做不到 "，而是在真实世界中不够稳健、不够克制。

04 野心与现实之间：无屏 AI 能否撑起下一个时代

OpenAI 并非第一个尝试无屏 AI 的公司。此前，一批背景各异的初创公司也抱有同样的信念，只是成效不一。

例如，Humane AI Pin 的开发团队也曾在无屏可穿戴设备上烧掉了数亿美元，最终却成了行业反面教材。其失败的教训仍历历在目：响应慢、续航差、价值模糊。市场已经证明，" 概念正确 " 并不等于 " 体验成立 "。

不同之处在于，OpenAI 同时握有两张关键筹码：一是持续演进的大模型能力，二是 Jony Ive 对硬件形态与人机关系的长期思考。这无疑给了 OpenAI 尝试转向无屏的底气：大模型提供了智能与适应性，设计则提供了交互体验和行为规范。

然而，真正的考验并不在发布当天，而在第一周、第一月的日常使用中：

无屏 AI 是否真的比手机更快？

是否在大多数时候选择不打扰？

是否让人愿意把 " 说话 " 当成一种默认操作方式？

如果答案是肯定的，那么无屏并非退化，而是一种更深的嵌入。

如果不是，它只会再次证明：屏幕之所以存在，并非偶然。

宙世代

一起剪

相关标签