第一新声 昨天
OpenAI押注“音频优先”AI,剑指下一代无屏设备
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当大多数 AI 公司仍在优化 " 屏幕里的体验 " 时,OpenAI 正在做一件反直觉的事:把屏幕拿走。

据多家外媒披露,OpenAI 的新一代音频模型预计将在 2026 年第一季度发布。此前,OpenAI 已在内部重组多个工程、产品和研究团队,把资源集中投向音频 AI;以 65 亿美元收购由前苹果首席设计官 Jony Ive 联合创立的 io 公司;并围绕一款 " 始终在线、以语音为核心、完全无屏 " 的消费级设备展开长期规划。

这并不是一次单点创新,而是一种新的假设:如果 AI 真正理解你所在的环境、你正在做的事,它是否还需要一个屏幕,来证明自己的存在?

在 OpenAI 的设想中,下一代设备不再要求你低头、滑动、确认,而是像一个 " 环境中的存在 ",通过聆听和观察,在合适的时刻介入。Sam Altman 直言,屏幕限制了 AI 的可能性;而 Jony Ive 则将这一项目视为 " 一场新的设计运动 "。

实际上,这样的转向并非只有 OpenAI 一家公司在做。从谷歌的音频概览、Meta 的智能眼镜,到特斯拉车内的对话式 AI,弱化屏幕、强化音频与环境感知,似乎正成为硅谷高度一致的方向选择。

那么,这场集体转向,究竟在押注什么?

01 先改模型,再造设备:OpenAI 的无屏布局

从动作层面看,OpenAI 对音频方向的投入已经不再是 " 功能优化 ",而是一次自上而下的战略重排。

报道称,相关工作由前 Character.ai 研究员 Kundan Kumar 牵头,产品研究主管 Ben Newhouse 与 ChatGPT 产品经理 Jackie Shannon 深度参与,几条研究、产品与工程线被统一拉到同一目标之下:为未来的无屏设备打造真正可用的音频 " 操作系统 "。

据知情人士透露,这一团队已经研发出全新的音频模型架构,在语音自然度、情感表达和回答准确性上都有明显提升,并首次支持实时打断和双向对话——模型甚至可以在用户还没说完时作出回应。OpenAI 计划在 2026 年第一季度发布这一代音频模型,用以弥补当前语音模型在速度和可靠性上仍落后于文本模型的短板。

这一技术布局,正好对应着 OpenAI 更宏大的硬件野心。

此前《华尔街 · 日报》披露的一次内部员工通话显示,Jony Ive 与 Sam Altman 已为首款产品定下清晰方向:它既不是手机,也不是眼镜,而是一款完全无屏的 " 第三核心设备 ",可以放入口袋,或与 MacBook 和 iPhone 一起摆在桌面上使用。据了解,该硬件设备很可能是一支 "AI 笔 "。

这款设备强调对环境和用户情境的持续感知,而不是依赖任何视觉界面。Altman 在内部测试 Ive 的原型后,甚至将其称为 " 世界上最酷的科技产品 ",并认为这笔交易可能为公司增加 1 万亿美元的价值。该产品的目标是在 2026 年底前发货,并计划以 " 比任何公司推出新产品达到一亿台的速度更快 " 的速度,达到 1 亿台销量。

总而言之,无论最终以智能笔、智能音箱、桌面设备还是其他形态出现,OpenAI 想要的并不是一件新玩具,而是一个在日常生活中地位足以与智能手机比肩的 " 超级 AI 助手 "。

02 弱化屏幕:一次硅谷高度一致的集体转向

如果只看 OpenAI 的硬件计划,很容易把它理解为一次激进的产品实验。但把视角拉远,会发现这是一个更广泛的行业共识。这背后主要有三点原因:

第一,屏幕的创新空间正在变窄。过去十年,几乎所有主流交互创新——多点触控、全面屏、手势操作——都已经被消化殆尽。继续围绕屏幕做文章,边际提升越来越小,却越来越昂贵。

第二,注意力成为最稀缺的资源。用户的 " 看屏幕时间 " 已经高度饱和。再增加一个需要持续注视的设备,只会加剧竞争,而不是创造新的使用场景。

第三,AI 的角色正在发生变化。当系统从 " 被调用的工具 " 变成 " 持续协助的智能体 ",屏幕反而成了阻碍。真正的环境智能,理想状态下应该在后台工作,只在必要时出现。

正是在这样的背景下,音频被重新推到舞台中央。它不要求视觉占用,不需要学习复杂界面,更容易融入走路、开车、做饭、聊天这些真实生活场景。这也是为什么, OpenAI 、谷歌、 Meta 、特斯拉正在不约而同地,把 " 对话 " 当作下一代计算入口。

03 无屏背后:技术难点的集中爆发

无屏,并不意味着更简单,恰恰相反,它把所有复杂性集中在了后台。

首先是 " 何时说话,何时保持沉默 " 的问题。所谓的轮次控制,需要同时解决语音活动检测、说话人识别、优雅打断以及上下文理解。在嘈杂、多说话人的真实环境中,一次误判就足以消耗用户信任。

其次是始终在线带来的电力与算力压力。设备必须依赖超低功耗传感器判断 " 是否需要唤醒 ",而真正的多模态推理则在本地与云端之间动态切换。这要求极端的模型压缩、内存优化,以及对延迟的精细管理。

再往后,是隐私与感知范围的博弈。摄像头能提供关键上下文,但也放大了侵入感。物理静音、遮挡机制、清晰可感知的权限控制,几乎决定了这类设备能否被长期接受。

音频优先设备失败的原因,往往不是 " 做不到 ",而是在真实世界中不够稳健、不够克制。

04 野心与现实之间:无屏 AI 能否撑起下一个时代

OpenAI 并非第一个尝试无屏 AI 的公司。此前,一批背景各异的初创公司也抱有同样的信念,只是成效不一。

例如,Humane AI Pin 的开发团队也曾在无屏可穿戴设备上烧掉了数亿美元,最终却成了行业反面教材。其失败的教训仍历历在目:响应慢、续航差、价值模糊。市场已经证明," 概念正确 " 并不等于 " 体验成立 "。

不同之处在于,OpenAI 同时握有两张关键筹码:一是持续演进的大模型能力,二是 Jony Ive 对硬件形态与人机关系的长期思考。这无疑给了 OpenAI 尝试转向无屏的底气:大模型提供了智能与适应性,设计则提供了交互体验和行为规范。

然而,真正的考验并不在发布当天,而在第一周、第一月的日常使用中:

无屏 AI 是否真的比手机更快?

是否在大多数时候选择不打扰?

是否让人愿意把 " 说话 " 当成一种默认操作方式?

如果答案是肯定的,那么无屏并非退化,而是一种更深的嵌入。

如果不是,它只会再次证明:屏幕之所以存在,并非偶然。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 macbook 特斯拉 华尔街日报
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论