前瞻网 前天
OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 年 10 月 7 日,OpenAI 首席执行官萨姆 · 奥尔特曼(Sam Altman)在开发者日活动上宣布,正式通过 API 推出新一代语言模型 GPT-5 Pro 及轻量化语音模型 "GPT-realtime-mini",旨在进一步降低开发者集成语音功能的门槛,推动多模态人机交互的普及。

奥尔特曼特别强调了语音交互在未来人机沟通中的核心地位。他指出,随着技术发展,语音将成为用户与 AI 系统交互的主要方式之一。此次推出的轻量化语音模型,正是为了降低开发者集成语音功能的门槛,推动语音交互技术在更多场景中的普及应用。

此次发布与 GPT-5 Pro 模型同步推出,后者专注于金融、法律、医疗等高精度推理场景,支持 40 万 tokens 上下文长度,但仅通过 Responses API 提供。同时,OpenAI 还发布了视频生成模型 Sora 2 的 API 预览版,并上线了 AgentKit 智能体开发工具,进一步丰富开发者生态。

面对全球 AI 厂商在 API 生态领域的竞争,OpenAI 通过轻量化模型和降价策略吸引开发者。业内分析指出,API 标准化或成为行业下一步焦点,有望降低开发门槛并提升模型互操作性。随着语音交互在智能家居、车载系统等场景的普及,OpenAI 此举可能重塑多模态 AI 市场的竞争格局。

多模态大型语言模型 ( Multimodal Large Language Models,简称 MLLMs ) 是一类结合了大型语言模型 ( Large Language Models,简称 LLMs ) 的自然语言处理能力与对其他模态 ( 如视觉、音频等 ) 数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出,提供更加丰富和自然的交互体验。

多模态大模型产业链是一个庞大而复杂的系统,涵盖了从硬件设施到软件开发的各个环节,主要包括基础层、模型层和应用层。其中,基础层主要包括硬件和基础软件,模型层主要是多模态大模型的种类,包括 CLIP、BLIP、BLIP-2、dreamLLM、LLaMA、LLaVA、flamingo、mini-GPT4 等,应用层则是指大模型结合行业的进一步升级应用形成的行业大模型,主要包括生产制造领域、生活娱乐领域和公共服务领域等。

早期大模型的商业模式主要为 SaaS 模式和 PaaS 模式,但随着大模型行业的快速发展以及再各行各业的快速拓展应用,以大模型为核心的 MaaS 模式 ( 模型即服务 ) 出现,MaaS 模式允许大模型服务提供商将大模型的特定功能或整个模型封装为 API ( 应用程序接口 ) ,并将其作为一种服务,提供给其他开发者或业务合作伙伴使用,是目前大模型行业一种主流的商业模式。

业内分析认为,OpenAI 此次双管齐下的产品策略,既保持了其在文本生成领域的领先优势,又通过专用语音模型完善了多模态交互能力。这种技术布局不仅满足了市场对高效 AI 工具的需求,也为构建更自然的人机交互体验奠定了基础。

前瞻经济学人 APP 产业观察组

更多本行业研究分析详见前瞻产业研究院《2025-2030 年全球及中国多模态大模型行业发展前景与投资战略规划分析报告

同时前瞻产业研究院还提供产业新赛道研究投资可行性研究产业规划园区规划产业招商产业图谱产业大数据智慧招商系统行业地位证明IPO 咨询 / 募投可研专精特新小巨人申报十五五规划等解决方案。如需转载引用本篇文章内容,请注明资料来源(前瞻产业研究院)。

更多深度行业分析尽在【前瞻经济学人 APP】,还可以与 500+ 经济学家 / 资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫 APP】,性价比最高功能最全的企业查询平台。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

语音交互 轻量化 首席执行官 saas 医疗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论