
智东西
编译|万贵霞
编辑|云鹏
智东西 1 月 23 日消息,谷歌正在通过 "引入团队 + 技术授权" 的方式,加速补齐Gemini在语音与情感理解上的短板。
据 TechCrunch 与美国《连线》昨日报道,谷歌旗下DeepMind已与 AI 语音初创公司Hume AI达成授权合作协议。Hume AI 创始人兼 CEOAlan Cowen将与约7 名核心工程师加入 DeepMind,直接参与 Gemini语音与情感智能的研发。
这笔交易并非整体收购,根据Hume AI新任 CEO Andrew Ettinger的说法,谷歌获得了Hume AI 全部知识产权的非独家使用权,相关技术将被整合进谷歌的模型研发流程,而 Hume AI 公司主体仍将独立运营,并继续向其他 AI 实验室提供服务。
Hume AI 的核心优势在于 "情感智能" 语音模型,该公司专注于通过语音信号识别用户情绪与心理状态。2024 年其推出 "共情语音接口"(Empathetic Voice Interface),并已累计融资约8000 万美元(约合人民币 5.6 亿元),预计今年营收可达1 亿美元(约合人民币 7 亿元)。
谷歌此次引入其核心团队,被视为在语音体验上正面迎战 ChatGPT 语音模式的关键一步。
一、核心团队加入 DeepMind,主打 " 情感智能 " 的语音模型
据报道,Hume AI 创始人兼前 CEO Alan Cowen将与多名工程师加入谷歌 DeepMind,主要任务是帮助谷歌将语音与情感智能整合进其前沿模型,提升Gemini在自然对话和情绪理解方面的能力。

Hume AI 创始人 Alan Cowen(图源:Alan Cowen 个人网站)
Cowen 本人拥有心理学博士背景,这也被认为是 Hume 在 "情感建模" 方向上的重要优势。
此次交易的具体金额尚未披露。Hume AI 新任 CEO、投资人兼科技高管Andrew Ettinger告诉 TechCrunch 记者,谷歌获得了 Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的研发流程,但公司并未被整体出售。

Andrew Ettinger 继任 Hume AI CEO 的消息(图源:领英 Andrew Ettinger 个人主页)
Hume AI 将继续对外提供技术服务,并计划在未来几个月内发布新模型。Ettinger 预计,Hume AI 有望在今年实现约1 亿美元的营收目标。
Hume AI 成立以来,始终聚焦一个相对细分但潜力巨大的方向——理解人类语音中的情绪与心理状态。
2024 年,Hume AI 推出 "共情语音接口",其核心能力在于通过语音信号判断用户的情绪变化,并据此调整回应方式。与传统语音助手侧重指令识别不同,Hume 的模型试图解决 "用户当下处于什么状态" 这一问题。

Hume AI 官网页面(图源:Hume AI 官网)
WIRED 报道中提到,Hume AI 在模型训练过程中投入了数百万美元,通过专家标注大量真实对话中的情绪线索,使模型能更精细地区分语气、语调与情绪变化。
PitchBook 数据显示,Hume AI 目前累计融资约8000 万美元,投资方包括 AEGIS Ventures 等机构。
二、谷歌补齐 Gemini 语音短板,语音赛道全面升温
对谷歌而言,引入 Hume AI 团队并不意外。近年来,谷歌持续推进Gemini Live功能,允许用户以语音方式与 AI 进行连续对话。
上个月,谷歌还发布了面向Live API的原生音频模型,强调其在复杂流程处理方面的能力。但在 "自然度" 和 "情感感知" 层面,Gemini 仍面临来自 OpenAI 等对手的压力。

谷歌 Gemini Live API 概览(图源:谷歌 Cloud)
在此背景下,Hume AI 团队被视为一个 " 即插即用 " 的补强方案。多位匿名消息人士向 WIRED 透露,Cowen 及其团队将在谷歌内部,专注于将情感智能深度嵌入新一代模型。
Hume AI 并非孤例。过去一年,语音能力正在成为 AI 厂商投入资源最多的方向之一。
本月初,AI 语音生成公司ElevenLabs披露,其年度经常性收入(ARR)已突破3.3 亿美元(约合人民币 23.1 亿元),显示出市场对高质量语音技术的真实需求。
与此同时,OpenAI被曝正在与前苹果设计师 Jony Ive团队合作开发一款主打音频功能的个人设备,为今年发布做准备。近期泄露的消息说,该设备可能是一款耳塞。
Meta同样在加速布局。去年,Meta 收购语音初创公司Play AI,其Ray-Ban智能眼镜已越来越依赖语音输入,在嘈杂环境下实现通话、信息与多媒体控制。投资人Vanessa Larco直言:" 在可穿戴设备上,语音几乎是唯一可行的输入方式。"

Ray-Ban 智能眼镜(图源:Reddit)
结语:" 授权 + 挖人 " 成为常态,语音成为 AI 的 " 下一层接口 "
值得注意的是,Hume AI 的交易再次触及一个监管敏感问题:"收购式招聘"。与直接并购公司不同,大型科技公司通过引入初创团队、获取技术授权,往往可以绕开传统并购所需的反垄断审查。
类似案例已多次出现,谷歌此前以授权方式引入Character AI相关技术;微软招募了Inflection团队;亚马逊引入Adept核心人员;Meta 则挖走了Scale AI的 CEO。
从当前趋势来看,语音正在演变为 AI 与人类交互的核心入口。对科技公司而言,理解 " 说了什么 " 只是第一步,更重要的是理解 " 为什么这样说 "" 说话时的情绪状态是什么 "。
随着语音、情感与多模态能力进一步融合,AI 的竞争焦点正在从模型参数规模,转向真实交互体验的细节层面。
来源:《连线》杂志、TechCrunch


登录后才可以发布评论哦
打开小程序可以发布评论哦