智东西
编译 | 金碧辉
编辑 | 程茜
智东西 6 月 17 日消息,据谷歌官方博客消息,谷歌实验室 6 月 13 日推出音频概览(Audio Overviews)这一全新功能。这是谷歌首次在搜索结果中引入由 AI 生成的播客式音频摘要。此次更新后,该功能首次在谷歌搜索结果中面向用户开放(此前仅存在于 NotebookLM)。
新升级的谷歌搜索版音频概览并非 NotebookLM 的直接移植,而是基于相同技术框架的独立功能扩展。
当用户在 Chrome 浏览器搜索 " 神经网路工作原理 " 等复杂议题时,或者如 " 氩元素有什么用途 " 时,音频概览便会激活。用户点击 " 生成音频概览 " 按钮,等待约 40 秒后,就能获得由两个 AI" 主持人 " 对话形式的语音总结。
该功能需满足三项条件:订阅 Google AI Pro/AI Ultra 套餐、加入实验室项目且用户要使用美国 IP。
用户点击结果页的生成按钮后,双 AI 主播的对话式解读将在约 40 秒后播出,播放器提供暂停、倍速调节及原文跳转功能,适配驾驶、烹饪等无屏场景操作需求。
一、利用 Gemin 模型实时抓取网页内容,音频生成全程仅需 40 秒
该系统内容由 Gemini 模型驱动,系统首先会在前 10 秒迅速完成网页抓取操作,并对抓取到的内容进行精准的语义分析;在随后的 25 秒内,Gemini 模型基于分析结果构建出问答脚本,模拟出贴合问题逻辑的对话框架;Gemini 模型 5 秒完成语音合成并输出。
不过,由于将响应速度设定为优先级,音频概览功能的交互能力有所降低,与 NotebookLM 能实时追问的功能相比,此版本仅能维持单向输出,用户无法在收听音频过程中即时提出新问题以获取进一步解答 。当前,音频概览功能仅面向美国用户提供英文服务,非英语的搜索内容也无法生成对应的音频摘要。
NotebookLM 是谷歌推出的一款基于用户上传文档的个性化 AI 研究助手,限定了信息来源范围,却支持多达 50 多种格式,PDF、网页、视频等都涵盖其中。NotebookLM 为用户提供了精准摘要,能快速提炼文档核心要点,以对话形式生动呈现文档关键内容等。
谷歌的音频概览功能摘要入口(图源:谷歌)
而此次推出的音频概览功能,则延续了 NotebookLM 的对话式音频技术逻辑,其生成的语音总结能提取自搜索结果首页内容,还能帮助用户更便捷地理解信息。同时,用户可调整播放速度 0.75-1.5 倍速,实现 " 边听边看 " 的沉浸体验。
二、谷歌音频概览 " 首登搜索 ",NotebookLM 完整版缩水为轻量播客
谷歌音频概览功能早在 2024 年 9 月便已在 NotebookLM 中亮相,并呈现出完整形态,支持用户实时追问,助力深度探索信息。
今年 5 月,据外媒 The Verge 报道,音频概览功能沿用了谷歌 I/O 大会发布的 " 重构信息流 " 技术架构,不过当时谷歌尚未公布语言扩展及区域推广的具体时间表。
同月 14 日,谷歌技术团队在 The Verge 的独家专访中透露,为优化用户体验,音频概览功能采用了响应速度优化方案,将音频生成时长固定在 40 秒左右。
当前此举主要是为了验证用户对这一基础功能的接受程度。如今,谷歌实验室于 6 月 13 日再次对音频概览功能进行升级更新。新升级的谷歌搜索版音频概览是基于 NotebookLM 相同技术框架的独立功能扩展。
当用户使用 Chrome 浏览器搜索特定复杂议题时,满足条件就可能触发音频概览功能,播放器还贴心配备了暂停、倍速调节及原文跳转功能,适配驾驶、烹饪等无屏场景下的操作需求 。
结语:AI" 主持人 " 信息取舍存伦理争议
当用户从 " 阅读文字 " 转向 " 收听对话 ",AI" 主持人 " 已不仅是信息的转述者,更成为内容的 " 叙事架构师 "。在教育场景中,学生搜索 " 量子物理 " 时,双 AI 主播用生活化比喻拆解复杂概念的 40 秒音频,可能比长篇文献更高效吸收;科研人员检索跨语言文献时,语音摘要能突破文字壁垒,将文献核心观点转化为可听化对话,加速跨学科知识整合。这种 " 听觉化 " 的信息处理方式,使知识传递从 " 主动阅读 " 转向 " 被动聆听 " 的模式。
技术伦理问题随之浮现。AI" 主持人 " 对信息的取舍逻辑尚未透明,双人对话形式可能存在诱导性解读风险。据 MIT(麻省理工科技评论)2025 年 3 月预警,当算法掌握声音表达权时,需建立更严格的信息溯源机制。
登录后才可以发布评论哦
打开小程序可以发布评论哦