量子位 20小时前
暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 正在杀死社交,但有人想用 AI 救回它。

想象一下:你在社交 App 刷到一张近乎完美的头像,点开主页,自我介绍幽默且真诚。

你发去消息,对方秒回,字里行间恰到好处。

但这种 " 完美 " 背后,隐约透着一丝冷意,不禁产生质疑:这张脸是生成的吗?这段话是 Agent 代写的吗?

照片可以 P、视频可以合成、文字可以由 AI 实时润色,社交产品的底层假设—— " 信息可信度 " 正在全面崩塌。

在这一背景下,一款名为森森(Gensen)的产品给出了一个反直觉的答案。今年春节,这款主打 " 声音匹配 " 的产品杀入 iOS 社交榜前 20,MAU 突破260 万

它的缔造者李哲羽曾在暴雪娱乐参与《魔兽世界》的开发工作,在皮克斯(Pixar)参与多个动画项目,发自内心认为:

唯有声音,是无法被 AI 轻易代偿的 " 最后真实信号 "。

AI 让一切都可以伪装,语音可能是最后的 " 真实信号 "

现在 AI 让 " 自我呈现 " 这件事变得越来越容易。

照片可以 P,视频可以合成,文字可以由 AI 助手实时生成。你在社交 App 上看到的那个人,也可能不是真的。

过去十年,社交产品的匹配逻辑经历了几次迭代:陌陌用位置,Tinder 用照片,Soul 用标签。

但不管形式怎么变,它们都建立在同一个假设上:用户提供的信息是可信的。

然而,这个假设正在崩塌。

因为今天,这些信息载体正逐渐失去可信度。

于是一个问题开始浮现:如果展示型信息越来越不可靠,社交匹配还能依赖哪些数据?

有一个产品给出了一个不同的答案:声音

语音社交产品森森(Gensen)今年春节期间进入了 iOS 社交榜前 20,最高触及第 17 位,和 Soul、陌陌、Uki 等产品同榜,MAU 突破 260 万。

相比榜单成绩,更值得关注的是它选择的技术路径。

在大多数产品用 AI 帮助用户 " 包装自己 " 的时候,森森做了一件相反的事:用 AI 去理解用户

这不是技术层面的判断,而是产品哲学层面的选择。

森森创始人李哲羽表示:

问卷测出来的是你想成为的人,声音暴露的是你真正是什么人。我们选择相信声音。

森森的创始人李哲羽曾在暴雪娱乐参与《魔兽世界》 的开发,在皮克斯(Pixar)参与多个动画项目。

他对 " 什么让人与人产生真实连接 " 这个问题想了很久。他的答案是:不是 " 展示自己 ",而是 " 一起经历一件事 "。

而声音,是这个 " 一起经历 " 过程中最真实、最丰富的信息载体。

一个人说话的语调、语速、停顿的时机、笑声的频率,这些信号比他本人说的内容本身承载了更多关于 " 他是谁 " 的信息。而且这些信号是实时的,无法编辑,也无法让 AI 代替。

森森的核心逻辑可以用一句话概括:

用游戏创造真实互动场景,用声音作为行为信号,再用 AI 建模人格特征。

为什么是声音?

因为在 AI 几乎可以伪造一切的时代,语音仍然具有一个独特特性:实时性

照片可以生成,视频可以合成,文字可以编辑。但当两个人在实时语音房间里交流时,包括语调的起伏、停顿的节奏、笑声的频率、情绪的变化等,这些几乎无法提前设计,也很难伪装。

这些信号在语言学中被称为副语言信号(Paralinguistic signals)。它们往往比语言本身更能反映一个人的性格和情绪状态。

年轻人在语音游戏里重新做回自己

如果你和今天的大学生聊社交,会听到一个高频词:营业。

" 又要开始营业了 ",这是很多年轻人打开社交 App 时的心理状态。

他们要精心挑选照片、编辑自我介绍、想一个不尴不尬的开场白、维持一段可能毫无营养的对话。

整个过程更像是在经营一个理想人设,而不是关注、了解、和沉浸在认识一个人的过程。

这种疲劳感不是某一款产品的问题,而是整个 " 自我呈现式社交 " 的结构性问题。

如果社交的前提是 " 展示自己 ",它就不可避免地会变成一种劳动。而在 AI 时代,这种劳动变得更荒谬。因为你精心经营的人设,对面也是精心经营的人设,可能还有 AI 的辅助加持。

然而,年轻人并非不想社交,他们只是厌倦了 " 表演式社交 "。

你会发现一个有趣的现象:同样一群在社交 App 和工作软件上懒得回消息的年轻人,在线下剧本杀、狼人杀、派对游戏里可以开心地玩一个晚上,结束后加一堆微信好友。为什么?因为在游戏里你不需要 " 营业 ",你只需要做你自己。

森森做的事情很简单:用户无需 " 展示 " 自己,只提供一个场景让他们去 " 做自己 "。

用户在森森任意进入一个 3D 语音派对房间,和陌生人一起玩游戏——森森酒馆、海龟汤、电波同频和星卡大乱斗……

这些游戏有一个共同特点:它们都需要你开口说话,都需要你随时表达观点、做出判断、展示情绪。

注意,这里的 " 展示 " 和社交 App 所说的 " 展示 " 本质不同。

在社交 App 上,你展示的是你想让别人看到的样子。

而在游戏里,你展示的是你本能的反应,例如:玩海龟汤时你的推理方式,玩森森酒馆时你撒谎被抓包时的表演策略,玩电波同频时你对一个词的直觉感受。你没时间也没必要 " 演 ",因为游戏本身就在要求你做真实的反应。

而这一切都发生在语音环境中。

AI 在后台做什么

有意思的是,森森并没有回避技术,它把 AI 用在了一个完全不同的方向上。

许多产品用 AI 帮助用户 " 包装自己 ",比如 AI 修图、AI 生成开场白、AI 代写回复。而森森更关注的是如何利用技术提升互动本身的匹配效率

在用户授权和隐私保护机制下,当用户在语音房间参与游戏互动时,系统会对语音交流中的一些匿名化特征信号进行统计建模,主要包括两个维度:

第一类是表达方式相关的声学特征,例如语调变化、语速节奏、情绪波动等。这些信号能够反映人与人沟通时的表达风格。

第二类是语言表达模式,例如用词习惯、表达逻辑和互动方式。这些信息更多体现沟通风格和互动偏好。

系统会在不涉及具体语音内容存储的情况下,对这些特征进行模型训练与分析,从而形成更加贴近真实互动风格的匹配参考。

对于用户来说,整个过程并不需要额外操作,你无需填写复杂问卷,也无需做性格测试。用户只是参与游戏互动,系统则在后台不断优化匹配体验,帮助用户更容易遇到聊得来的人。

李哲羽表示," 我们不是在做语音聊天室加小游戏。我们在用 AI 理解人的声音,用游戏暴露人的性格,用性格来匹配连接对的人。"

游戏成为社交的 " 自然实验室 "

来看一个具体的用户场景,想象一局海龟汤游戏。

出题者说:" 有一匹马去餐馆点了一碗鱼汤,它喝完汤就哭了,为什么?" 房间里有 5 个陌生人,开始通过语音提问。

有人上来就问:" 他是不是之前在海上遇过险?" ——这个人思维跳跃,喜欢直达结论。

有人从细节入手:" 马不会说话,他是怎么点汤的?" ——这个人严谨、习惯建立完整边界。

还有人说:" 这个汤好喝吗?" ——全场爆笑,气氛瞬间轻松下来。

短短十分钟,5 个陌生人的思维方式、表达风格、社交性格已经自然呈现。这就是森森想做的事情:游戏提供场景,让用户尽情做自己

这套逻辑是否成立?用户已经用脚投了票。

春节期间社交榜 17、MAU 260 万、估值 1.5 亿美元、累计融资超 4500 万美金(约 3.1 亿元人民币),A16Z 和腾讯已表达投资意向。

目前,森森在上海和 Palo Alto 设有双总部,美国版 Gensen 正在做最后的上线准备。

但更值得关注的不是数字本身,而是这些数字反映的产品结构。

派对游戏是天然的裂变场景,一个人玩不起来,必须拉朋友一起。语音互动让 " 弱关系 " 到 " 强关系 " 的转化路径大幅缩短,AI 匹配让你遇到的人真的聊得来。

三者组合,形成了产品的有机增长飞轮。

回到最初的问题:如果 AI 让照片、视频、文字都失去了可信度,社交还剩下什么?

在 AI 越来越擅长 " 生成内容 " 的时代,理解真实行为或许会成为下一代社交产品的关键能力。

声音,可能是这件事的入口,也许这才是社交本来该有的样子。

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

评论
大家都在看