谷歌搜索集成音频概览，40秒生成播客总结内容

智东西

编译 | 金碧辉

编辑 | 程茜

智东西 6 月 17 日消息，据谷歌官方博客消息，谷歌实验室 6 月 13 日推出音频概览（Audio Overviews）这一全新功能。这是谷歌首次在搜索结果中引入由 AI 生成的播客式音频摘要。此次更新后，该功能首次在谷歌搜索结果中面向用户开放（此前仅存在于 NotebookLM）。

新升级的谷歌搜索版音频概览并非 NotebookLM 的直接移植，而是基于相同技术框架的独立功能扩展。

当用户在 Chrome 浏览器搜索 " 神经网路工作原理 " 等复杂议题时，或者如 " 氩元素有什么用途 " 时，音频概览便会激活。用户点击 " 生成音频概览 " 按钮，等待约 40 秒后，就能获得由两个 AI" 主持人 " 对话形式的语音总结。

该功能需满足三项条件：订阅 Google AI Pro/AI Ultra 套餐、加入实验室项目且用户要使用美国 IP。

用户点击结果页的生成按钮后，双 AI 主播的对话式解读将在约 40 秒后播出，播放器提供暂停、倍速调节及原文跳转功能，适配驾驶、烹饪等无屏场景操作需求。

一、利用 Gemin 模型实时抓取网页内容，音频生成全程仅需 40 秒

该系统内容由 Gemini 模型驱动，系统首先会在前 10 秒迅速完成网页抓取操作，并对抓取到的内容进行精准的语义分析；在随后的 25 秒内，Gemini 模型基于分析结果构建出问答脚本，模拟出贴合问题逻辑的对话框架；Gemini 模型 5 秒完成语音合成并输出。

不过，由于将响应速度设定为优先级，音频概览功能的交互能力有所降低，与 NotebookLM 能实时追问的功能相比，此版本仅能维持单向输出，用户无法在收听音频过程中即时提出新问题以获取进一步解答。当前，音频概览功能仅面向美国用户提供英文服务，非英语的搜索内容也无法生成对应的音频摘要。

NotebookLM 是谷歌推出的一款基于用户上传文档的个性化 AI 研究助手，限定了信息来源范围，却支持多达 50 多种格式，PDF、网页、视频等都涵盖其中。NotebookLM 为用户提供了精准摘要，能快速提炼文档核心要点，以对话形式生动呈现文档关键内容等。

谷歌的音频概览功能摘要入口（图源：谷歌）

而此次推出的音频概览功能，则延续了 NotebookLM 的对话式音频技术逻辑，其生成的语音总结能提取自搜索结果首页内容，还能帮助用户更便捷地理解信息。同时，用户可调整播放速度 0.75-1.5 倍速，实现 " 边听边看 " 的沉浸体验。

二、谷歌音频概览 " 首登搜索 "，NotebookLM 完整版缩水为轻量播客

谷歌音频概览功能早在 2024 年 9 月便已在 NotebookLM 中亮相，并呈现出完整形态，支持用户实时追问，助力深度探索信息。

今年 5 月，据外媒 The Verge 报道，音频概览功能沿用了谷歌 I/O 大会发布的 " 重构信息流 " 技术架构，不过当时谷歌尚未公布语言扩展及区域推广的具体时间表。

同月 14 日，谷歌技术团队在 The Verge 的独家专访中透露，为优化用户体验，音频概览功能采用了响应速度优化方案，将音频生成时长固定在 40 秒左右。

当前此举主要是为了验证用户对这一基础功能的接受程度。如今，谷歌实验室于 6 月 13 日再次对音频概览功能进行升级更新。新升级的谷歌搜索版音频概览是基于 NotebookLM 相同技术框架的独立功能扩展。

当用户使用 Chrome 浏览器搜索特定复杂议题时，满足条件就可能触发音频概览功能，播放器还贴心配备了暂停、倍速调节及原文跳转功能，适配驾驶、烹饪等无屏场景下的操作需求。

结语：AI" 主持人 " 信息取舍存伦理争议

当用户从 " 阅读文字 " 转向 " 收听对话 "，AI" 主持人 " 已不仅是信息的转述者，更成为内容的 " 叙事架构师 "。在教育场景中，学生搜索 " 量子物理 " 时，双 AI 主播用生活化比喻拆解复杂概念的 40 秒音频，可能比长篇文献更高效吸收；科研人员检索跨语言文献时，语音摘要能突破文字壁垒，将文献核心观点转化为可听化对话，加速跨学科知识整合。这种 " 听觉化 " 的信息处理方式，使知识传递从 " 主动阅读 " 转向 " 被动聆听 " 的模式。

技术伦理问题随之浮现。AI" 主持人 " 对信息的取舍逻辑尚未透明，双人对话形式可能存在诱导性解读风险。据 MIT（麻省理工科技评论）2025 年 3 月预警，当算法掌握声音表达权时，需建立更严格的信息溯源机制。

宙世代

一起剪

相关标签