OpenAI 正优化其音频人工智能模型,为计划中的语音驱动型个人设备做准备。
1 月 1 日,据 The Information 报道,OpenAI 过去两个月内整合工程、产品和研究力量,集中攻克音频交互的技术瓶颈,目标打造一款可通过自然语音指令操作的消费级设备。
公司内部研究人员认为,当前 ChatGPT 的语音模型在准确性和响应速度上均落后于文本模型,且两者使用的底层架构并不相同。
据报道,新语音模型将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力,这是现有模型无法实现的关键特性,计划 2026 年第一季度发布。
报道援引知情人士称,OpenAI 还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将设备定位为用户的 " 协作伴侣 " 而非单纯的应用入口。
不过在推出支持语音指令的消费级 AI 硬件产品前,OpenAI 需要先改变用户的使用习惯。
团队整合聚焦无屏交互方式
据报道,OpenAI 当前的语音模型与文本模型分属不同架构,导致用户通过语音与 ChatGPT 对话时,获得的回答质量和速度均逊于文本模型。
为解决这一问题,OpenAI 在过去两个月内完成了关键团队整合。
在组织层面,今夏从 Character.AI 加入的语音研究员 Kundan Kumar 担任音频 AI 项目核心负责人。
产品研究主管 Ben Newhouse 正在重构音频 AI 基础设施,多模态 ChatGPT 产品经理 Jackie Shannon 也参与其中。
报道援引知情人士称,新音频模型架构能够生成更精准深入的回应,支持与用户实时对话,并更好地处理对话打断等复杂场景。
在硬件形态上,OpenAI 与谷歌、亚马逊、Meta 和苹果的判断相似:现有主流设备并不适合未来 AI 交互。
OpenAI 团队希望用户通过 " 说话 " 而非 " 看屏幕 " 与设备互动,认为语音才是最贴近人类交流本能的方式。
此外,与 OpenAI 合作硬件开发的前苹果设计主管乔尼 · 艾夫强调,无屏幕设计不仅更自然,还有助于避免用户沉迷。他在 5 月采访中表示:
即使初衷无害,若产品产生不良后果,也需承担责任。这种责任感驱动着我当前的工作。
用户习惯培养成关键挑战
OpenAI 面临的主要障碍在于用户行为。
据报道,多数 ChatGPT 用户尚未养成语音交互习惯,原因包括音频模型质量不足或用户未意识到该功能存在。
要推出以音频为核心的 AI 设备,公司需先培养用户通过语音与 AI 产品互动的习惯。
此前报道显示,OpenAI 已在 2025 年初斥资近 65 亿美元收购乔尼 · 艾夫联合创办的 io,并同步推进供应链、工业设计与模型研发等多条工作线。首款设备预计至少还需一年时间才能面世。
这一时间表意味着 OpenAI 需要在产品发布前,通过改进现有 ChatGPT 语音功能来积累用户基础,并验证音频交互在日常场景中的实用性。


