
智东西
作者|江宇
编辑|冰倩
智东西 3 月 27 日消息,昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型 Gemini 3.1 Flash Live,并在 Gemini App、Search Live 以及 Google AI Studio 中同步开放,其中后者以预览版本向开发者提供。
这一版本的核心在实时语音 Agent 能力升级:语音已可直接驱动应用开发(vibe coding),Gemini App 的实时多模态对话能力同步增强,在多项评测中超过 GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview 等模型。
模型一出,就被外网网友称作 Siri" 救星 "。就在昨日,外媒曝 2026 苹果 WWDC 将主打 AI 并将推新版 Siri,苹果已获谷歌完整 Gemini 模型直连权限,将通过蒸馏自研轻量化端侧 AI 部署 iPhone。

这款模型面向实时语音交互,对连续对话进行了整体优化,包括响应延迟、上下文记忆、多语言处理及工具调用等关键能力。
Gemini Live 中的上下文窗口已提升至此前的 2 倍,Search Live 支持在 200 多个国家和地区进行多语言实时交互,整体能力面向连续对话和复杂任务场景。
从公开测试结果来看,这一版本在语音 Agent 关键能力上提升显著。在 ComplexFuncBench audio 测试中,Gemini 3.1 Flash Live 的函数调用准确率达到 90.8%,相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5%,以及 2025 年 9 月版本的 66.0%,都有明显提高。

在 Scale 发布的 Audio MultiChallenge 音频输出榜单中,该模型得分 36.1%,高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B A3B Instruct 的 24.3%、GPT-4o Audio preview 的 23.2% 等模型。

与此同时,这一版本重点优化了实时对话体验。模型在语音识别中对语调、语速和停顿的处理更细;在嘈杂环境下,对背景噪音的过滤能力增强,可以更稳定识别用户指令并执行任务;在复杂指令场景中,对系统约束的遵循能力也有所提升。
已有获得更新的用户开始尝试新玩法,有人直接用语音指令让模型生成简短演唱片段,这类能力已经可以在对话中被触发。
其 API 价格也已公布:文本输入每百万 token 约 0.5 美元、输出约 4.5 美元,音频输入约 3 美元、输出约 12 美元,支持多模态输入调用。

模型一经发布,社区已经出现初步反馈。有网友评价称,这是一次 " 强势更新 ",并指出更快的语音响应是一种 " 用户体验层面的关键突破 ",如果延迟和多轮对话中的连续性能在更长时间的使用中保持稳定,语音交互的采用速度可能会明显提升。
不过,也有用户仍然保持谨慎。一位开发者直言,自己此前已经放弃使用语音模型,因为其回复质量明显不如文本,并反问这一情况是否真的发生了改变。

智东西也对这一功能进行了初步体验。其中文语音表现仍偏机械,多轮对话过程中存在中断情况,暂未能完整体验其连续交互能力。当前该版本正分批推送,iOS 和安卓用户已开始陆续收到更新。
一、开口就是改代码:UI、交互、风格一段话全部重做
在这次发布中,谷歌首先展示的是语音驱动应用开发(vibe coding)这一类场景,开发者可以在 Google AI Studio 里一边说话一边做应用,让开发过程跟上脑暴的节奏。

Live Vibe Coder 页面,用户可上手实操
用户可以用语音连续调整界面。对话一开始,用户直接提出修改:" 把麦克风做大一点 ",界面随即发生变化;紧接着补一句 " 背景加点黄色波点 ",页面背景立刻更新。
随后用户继续叠加需求,例如加入 " 鼠标悬停时的反馈效果 "、让背景图案持续滚动,这些改动都在同一段对话中逐步完成。
用户一边说,界面一边变化。中途用户又临时调整方向,说 " 干脆整体做成波普风 ",模型就在已有基础上继续重做视觉风格,整个过程接近和设计师一对一的实时沟通。
二、设计协作、跨语对话、角色扮演,三类场景同时落地
除了应用开发,谷歌还给出了三类实际使用的场景,包括界面设计协作、跨语言陪伴交流,以及游戏中的角色互动。
在设计工具 Stitch 的案例中,语音也可直接参与到界面编辑流程。用户先让界面跳到 " 练习模式 ",再切到 " 歌曲库 ",随后开始具体挑问题:" 这些虚线和方形边框看着有点硬,能不能让数字更贴合圆形?" 界面随即往更简洁的方向调整。紧接着又换一套思路:" 试一个偏棕色、木质一点的配色 ",新的视觉版本便直接生成出来。
在面向老年用户 AI 硬件设备 Ato 的交互案例中,重点放在多语言对话的连续性,对话内容围绕日常问候和陪伴展开。用户先用英语聊天,再插入一个条件:" 我要跟奶奶说话,但她只会西班牙语 ",模型在同一段对话里切换语言继续交流,对话内容并不会因为语言变化而中断。
对话中一旦出现真实场景的插入信息,比如提到 " 刚从医院出来有点累 ",模型会顺着语境回应,给出一段连续的交流。
在 RPG 游戏《Wit ’ s End》的案例中,语音被用来驱动角色本身。玩家提问时,模型会用带有设定的语气回应,例如围绕 " 你有没有实体形态 "" 你的能力来自哪里 " 等问题展开,对话始终保持在角色语境里。回答不会跳出设定,会沿着同一世界观继续展开,语气和表达方式也保持一致。
结语:谷歌做 " 全栈语音 Agent",国内玩家一边抓用户,一边补能力
从这次发布来看,谷歌正在把语音能力做成一套更完整的通用能力体系。无论是编程场景中的 vibe coding,还是 AI 硬件交互、移动端 Gemini App 入口,多个形态都在同时推进,覆盖范围扩展到不同使用场景。
在产品形态上,Gemini App 与国内的豆包等产品已有明显相似之处,都是以对话为核心入口,承接搜索、工具调用和多轮交互。但在实际体验上,两者并不相同。豆包在中文表达、语气风格以及互动感上更为主动,调侃式表达更容易形成用户黏性,也已经在国内积累了一定用户规模。
相比之下,谷歌当前的重心仍放在能力拓展上,尤其是在语音驱动开发这一类场景中,vibe coding 所体现的连续修改能力和实时交互节奏,已经领先于现有产品形态。
与此同时,国内在语音模型能力上的进展也在加快。阶跃星辰 Step-Audio R1.1 在 Artificial Analysis 语音推理榜单中拿下第一,以 96.4% 准确率超过 Grok、Gemini、GPT-Realtime 等模型,成为当前语音推理方向的代表性成果之一。
一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音 Agent 的竞争态势,正愈演愈烈。

智东西
作者|江宇
编辑|冰倩
智东西 3 月 27 日消息,昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型 Gemini 3.1 Flash Live,并在 Gemini App、Search Live 以及 Google AI Studio 中同步开放,其中后者以预览版本向开发者提供。
这一版本的核心在实时语音 Agent 能力升级:语音已可直接驱动应用开发(vibe coding),Gemini App 的实时多模态对话能力同步增强,在多项评测中超过 GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview 等模型。
模型一出,就被外网网友称作 Siri" 救星 "。就在昨日,外媒曝 2026 苹果 WWDC 将主打 AI 并将推新版 Siri,苹果已获谷歌完整 Gemini 模型直连权限,将通过蒸馏自研轻量化端侧 AI 部署 iPhone。

这款模型面向实时语音交互,对连续对话进行了整体优化,包括响应延迟、上下文记忆、多语言处理及工具调用等关键能力。
Gemini Live 中的上下文窗口已提升至此前的 2 倍,Search Live 支持在 200 多个国家和地区进行多语言实时交互,整体能力面向连续对话和复杂任务场景。
从公开测试结果来看,这一版本在语音 Agent 关键能力上提升显著。在 ComplexFuncBench audio 测试中,Gemini 3.1 Flash Live 的函数调用准确率达到 90.8%,相比 Gemini 2.5 Flash Native Audio 去年 12 月版本的 71.5%,以及 2025 年 9 月版本的 66.0%,都有明显提高。

在 Scale 发布的 Audio MultiChallenge 音频输出榜单中,该模型得分 36.1%,高于 GPT-Realtime-1.5 的 34.7%、Qwen3 Omni 30B A3B Instruct 的 24.3%、GPT-4o Audio preview 的 23.2% 等模型。

与此同时,这一版本重点优化了实时对话体验。模型在语音识别中对语调、语速和停顿的处理更细;在嘈杂环境下,对背景噪音的过滤能力增强,可以更稳定识别用户指令并执行任务;在复杂指令场景中,对系统约束的遵循能力也有所提升。
已有获得更新的用户开始尝试新玩法,有人直接用语音指令让模型生成简短演唱片段,这类能力已经可以在对话中被触发。
其 API 价格也已公布:文本输入每百万 token 约 0.5 美元、输出约 4.5 美元,音频输入约 3 美元、输出约 12 美元,支持多模态输入调用。

模型一经发布,社区已经出现初步反馈。有网友评价称,这是一次 " 强势更新 ",并指出更快的语音响应是一种 " 用户体验层面的关键突破 ",如果延迟和多轮对话中的连续性能在更长时间的使用中保持稳定,语音交互的采用速度可能会明显提升。
不过,也有用户仍然保持谨慎。一位开发者直言,自己此前已经放弃使用语音模型,因为其回复质量明显不如文本,并反问这一情况是否真的发生了改变。

智东西也对这一功能进行了初步体验。其中文语音表现仍偏机械,多轮对话过程中存在中断情况,暂未能完整体验其连续交互能力。当前该版本正分批推送,iOS 和安卓用户已开始陆续收到更新。
一、开口就是改代码:UI、交互、风格一段话全部重做
在这次发布中,谷歌首先展示的是语音驱动应用开发(vibe coding)这一类场景,开发者可以在 Google AI Studio 里一边说话一边做应用,让开发过程跟上脑暴的节奏。

Live Vibe Coder 页面,用户可上手实操
用户可以用语音连续调整界面。对话一开始,用户直接提出修改:" 把麦克风做大一点 ",界面随即发生变化;紧接着补一句 " 背景加点黄色波点 ",页面背景立刻更新。
随后用户继续叠加需求,例如加入 " 鼠标悬停时的反馈效果 "、让背景图案持续滚动,这些改动都在同一段对话中逐步完成。
用户一边说,界面一边变化。中途用户又临时调整方向,说 " 干脆整体做成波普风 ",模型就在已有基础上继续重做视觉风格,整个过程接近和设计师一对一的实时沟通。
二、设计协作、跨语对话、角色扮演,三类场景同时落地
除了应用开发,谷歌还给出了三类实际使用的场景,包括界面设计协作、跨语言陪伴交流,以及游戏中的角色互动。
在设计工具 Stitch 的案例中,语音也可直接参与到界面编辑流程。用户先让界面跳到 " 练习模式 ",再切到 " 歌曲库 ",随后开始具体挑问题:" 这些虚线和方形边框看着有点硬,能不能让数字更贴合圆形?" 界面随即往更简洁的方向调整。紧接着又换一套思路:" 试一个偏棕色、木质一点的配色 ",新的视觉版本便直接生成出来。
在面向老年用户 AI 硬件设备 Ato 的交互案例中,重点放在多语言对话的连续性,对话内容围绕日常问候和陪伴展开。用户先用英语聊天,再插入一个条件:" 我要跟奶奶说话,但她只会西班牙语 ",模型在同一段对话里切换语言继续交流,对话内容并不会因为语言变化而中断。
对话中一旦出现真实场景的插入信息,比如提到 " 刚从医院出来有点累 ",模型会顺着语境回应,给出一段连续的交流。
在 RPG 游戏《Wit ’ s End》的案例中,语音被用来驱动角色本身。玩家提问时,模型会用带有设定的语气回应,例如围绕 " 你有没有实体形态 "" 你的能力来自哪里 " 等问题展开,对话始终保持在角色语境里。回答不会跳出设定,会沿着同一世界观继续展开,语气和表达方式也保持一致。
结语:谷歌做 " 全栈语音 Agent",国内玩家一边抓用户,一边补能力
从这次发布来看,谷歌正在把语音能力做成一套更完整的通用能力体系。无论是编程场景中的 vibe coding,还是 AI 硬件交互、移动端 Gemini App 入口,多个形态都在同时推进,覆盖范围扩展到不同使用场景。
在产品形态上,Gemini App 与国内的豆包等产品已有明显相似之处,都是以对话为核心入口,承接搜索、工具调用和多轮交互。但在实际体验上,两者并不相同。豆包在中文表达、语气风格以及互动感上更为主动,调侃式表达更容易形成用户黏性,也已经在国内积累了一定用户规模。
相比之下,谷歌当前的重心仍放在能力拓展上,尤其是在语音驱动开发这一类场景中,vibe coding 所体现的连续修改能力和实时交互节奏,已经领先于现有产品形态。
与此同时,国内在语音模型能力上的进展也在加快。阶跃星辰 Step-Audio R1.1 在 Artificial Analysis 语音推理榜单中拿下第一,以 96.4% 准确率超过 Grok、Gemini、GPT-Realtime 等模型,成为当前语音推理方向的代表性成果之一。
一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音 Agent 的竞争态势,正愈演愈烈。


登录后才可以发布评论哦
打开小程序可以发布评论哦