36氪 02-09
前百川智能联创的AI音频赌局:我要造“人”,造AI主播
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|周鑫雨

访谈整理|钟楚笛

编辑|苏建勋

上映于 2013 年的《Her》,是焦可最喜欢的一部电影。

影片中的 AI Samantha 没有脸、没有形象,人们能感知的,只有她温柔沉静的声音。当 Samantha 说出," 最近你经历的事情太多了,你失去了一部分的自己 ",男主角潸然泪下。

这一幕给了焦可极大触动:" 仅仅声音,就能让人产生这么强的情感链接。"

后来,在《Her》设定的时间,2025 年初,身为百川智能联合创始人的焦可,选择离职创业,做了一家 AI 音频公司,来福电台。

△前百川智能联合创始人、" 来福电台 " 创始人兼 CEO 焦可,图源:受访者供图

在他创业的时间点,音频,是一个充满争议的赛道。Google 在 2023 年 7 月发布的知识库 NotebookLM,能够将用户的研究资料,生成 10-20 分钟的音频——这个产品,给 AI 播客赛道带来了想象空间。

但想象的另一面,是国内音频赛道,至今乏善可陈的成绩。播客赛道的头部产品小宇宙,2024 年初的月活仅 600 万左右,远不及长视频平台。

在融资过程中,焦可同样面对不少质疑:音频传递信息的效率远不及视频,音频的市场天花板不高。

和我们的交流中,回应同样的疑问,焦可前后花了 30 多分钟,从《Her》《2001:太空漫游》,聊到了小宇宙、豆包。对于他而言,非做音频不可的理由太多了:

由于生产成本高,国内音频内容的供给量过少,而用户每天拥有大量的 " 耳朵时间 ";

如今偏精品化的音频内容供给,无法满足不同用户个性化的音频需求。

更重要的是,相较于视频、文字,音频是人类最自然的交互方式,具有强烈的陪伴属性

他告诉我们,让音频发挥最大优势的,就是 AI。

一端,语音理解和生成技术,解决供给问题的同时,也能在交互中和用户建立情感联系;

另一端,AI 开始洞察、理解用户的喜好。

恰巧,语音是生产信息效率最高的交互方式,用户能通过语音交互产生足够多的 Long Context(长上下文)。基于过往的 Long Context,AI 能够总结用户偏好,并将符合的音频内容,推荐给用户。

△ " 来福电台 " 根据作者的收听历史,推荐的商业新闻播客。图源:作者试用

这套非共识的逻辑,并非所有人都买单。但也吸引了一些投资人,比如红杉中国创始及执行合伙人沈南鹏。从立项到过会,红杉前后只花了一周的时间。

2025 年下半年,来福又完成了由达晨领投、红杉中国跟投的第二轮融资。两轮融资的总金额达到了 1000 多万美金。

但做一个 AI 播客平台,远非焦可的初心。他要造 " 人 ",造 AI 主播。

在互联网时代,焦可在百度负责过音乐服务产品 "MP3 搜索 ",创业做过 ToC 金融平台,还在中东负责过 ToG 项目——到了 AI 时代,这名互联网老兵开始思考:什么是不同于互联网的产品形态?

他得出的答案是:互联网时代解决的是连接效率的问题,AI 解决的是生产力问题。

所以,工具、平台,都是互联网时代的产物,而" 人 ",才是独属 AI 时代的产品形态。

这也是如今 " 来福电台 " 的运作逻辑。

焦可告诉我们,目前,来福上一共有 15 位 AI 中文主播,还有 2 位英文主播。TA 们风格各异,主持不同的频道,还能记住听众的偏好。

" 你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。" 为了让用户感受到 " 人 " 的存在,焦可为来福设计了一个占了大半屏幕的球,跟着 AI 主播说话的节奏跃动。

△随着 AI 主播说话节奏跃动的球。图源:作者试用

打开来福,用户能看到喜欢的 AI 主播,已经制作好自己感兴趣的内容,随时等待被收听。在这个过程中,用户也可以随时打断节目,提出问题、加入讨论,或者寻求情感陪伴。

在焦可看来,这是 Samantha 的雏形。

△作者对 AI 主播提问:为什么从科技撤出的资金流向了低估值和红利股。图源:作者试用

以下是《智能涌现》和焦可的交流内容,内容经整理编辑:

我做的不是 AI 播客,而是造 " 主播 "

智能涌现:你怎么定义来福?很多人说这是一款 "AI 播客 "。

焦可:我不认为自己做的是 AI 播客平台。

来福现在有 15 位我们定义的中文 AI 主播,还有 2 位英文 AI 主播,每个 " 人 " 的风格都不同。经常有用户在使用产品的过程中,点名某一位主播。

来福非常强调人的属性,我们造的其实是 " 人 ",造的是 AI 主播。

智能涌现:小川(百川智能创始人兼 CEO)也说要 " 造人 "。

焦可:我们在这方面有很大的共识。

当年轰轰烈烈的互联网医疗,最后都没开花结果,原因在于互联网革命本质上是生产关系的革命,解决的是效率的问题,不解决生产力的问题

但中国最大的问题在于,医生只有 440 万,好医生更少,供给严重不足。

23 年初,我和小川在他家楼下聊了很多次,他当时就说想做 AI 医生。为什么我们信 AI 医疗?因为 AI 的本质是生产力革命。用 AI 造出医生,就能从根本上解决供给问题。

智能涌现:音频赛道的问题也是供给问题吗?

焦可:是。前段时间我看到有人发帖说,人类播客已经这么多了,为什么我还要听 AI 播客?其实人做音频的成本是非常高的,甚至超过视频制作。

视频就算主播有口音、周围环境很嘈杂,你后期可以配字幕,不影响观看。但音频只能听,所以对录音质量的要求很高。你需要一个录音棚,再不济也要配个麦克风。后期剪辑还要剪掉口癖、停顿、重复。

人类生产的音频量是有限的。比如小宇宙,一年大概有 50 万集节目,平均每天 1000 多集新节目。人类生产的视频,每天有大几千万。都没有人嫌 AI 视频多,为啥觉得 AI 音频多?

智能涌现:供给虽然少,但用户有那么多听音频的需求吗?

焦可:一个人每天都有很多" 耳朵时间 ",比如上下班通勤、健身跑步、做家务、睡前时间。

德勤发布过一份报告,除去音乐,世界范围内音频听众大概有 16 亿。而且音频是高频刚需,起码用户每两天就要听。

智能涌现:现在 AI 应用主流的方向有两个,一个是工具,一个是平台。这都不是你想做的产品形态?

焦可:平台经济是互联网的产品形态,工具型产品其实是平台服务的一部分。比如服务创作者和消费者双端的平台,平台为生产者提供创作工具,工具生产的内容再供给消费者。

现在很多 AI 产品,看上去还是一个平台或者工具,很容易落到大厂的射程里。

AI 时代真正的产品形态应该是 " 人 ",应该是科学家、医生、主播,这是互联网时代不具备的,但 AI 可以做到的产品形态。

智能涌现:造出来的 " 人 " 是什么产品形态?

焦可:《Her》这部电影就是个很好的产品经理,因为它定义了一个产品如何去和用户交互。

最开始 Samantha 和男主的交互,是主动帮他处理了邮件。后续他们建立感情,不是通过男主的主动 chat,而是一起玩游戏、搭积木。大家一起做成一件事,才是真正的陪伴。

很多 AI 陪伴产品,非常大的问题是重度依赖用户的主动输入。你要不停和 AI 讲话,但绝大多数用户没有这么多话可以讲。所以最后留下来的用户是少数有表达欲的人。

智能涌现:为什么你 " 造人 " 切入的是音频赛道?

焦可:音频有视频不具备的价值,就是沟通性,这本来就是人类最自然的沟通方式。音频还很容易触发情感属性,以前有情感热线的都是电台,但没有电视台。

电影《Her》对这波 AI 创业的影响还蛮大的。GPT-4o 中使用的声音,就来自片中的 AI"Samantha"。很多人没意识到,从头至尾,Samantha 没有形象,只有声音。

所以声音是很重要的,音频有很强的陪伴属性。目前图像、视频、机器人,还没有跨过恐怖谷效益,但音频可以。这是我们做音频的重要原因。

而且音频是非打扰、非独占式的。你看半个小时视频是蛮累的,因为所有的感官,你的眼睛、你的手、你的耳朵都被占着。但音频就还好。

未来两年,我相信大家会越来越懒得掏出手机,点击上面的 App 去社交或者检索信息。既然机器开始听得懂人话,未来我们交互的界面就可能成为语音。

智能涌现:你是怎么设计来福的功能的?

焦可:来福做的事,就是和《Her》一样,以提供内容为切口,去和用户交互。用户不只能听节目,还能随时和 AI 主播聊。

我们希望营造一种感觉,就是你随机走进一个房间,里面两个主播在聊你感兴趣的事。你可以坐下安静听,也可以随时参与他们的讨论。

在这个过程中,你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。

来福还可以根据你的需求,或者你的喜好,快速制作音频内容。比如一些有时效性的内容,人类播客可能需要一周的制作时间。但 AI 主播不到一小时就可以准备好内容。这是我们看到的机会。

智能涌现:你完整经历了互联网周期,现在做 AI 创业,有哪些思维是要改变的?

焦可:如果你认为 AI 是一个新的技术周期,那就千万小心,不要用互联网的惯性去做事。

我在百川也聊过很多互联网产品经理。但是大家还是想着怎么做平台、怎么做双边市场、怎么投流。

但网络效应在 AI 时代不存在。很多人在 AI 时代创业,说要做平台,但平台是上个互联网时代的产品形态。互联网改变的不是生产,而是将交易成本通过生产者和消费者的互联,打得很低

所以互联网大厂走的都是平台经济,让你可以通过在一段时间内大规模投入资金,让生产和消费两端同时规模化。

比如滴滴,一端是司机,一端是乘客。如果只有一端,互联网平台的经济模型是无效的。等两端都起来,互联网平台的壁垒就建立了。

但 AI 是生产力革命。生产力直接生产商品或服务,产生的是单边市场。2024 年一些 AI 产品的投流证明,单边市场是没法靠烧钱起来的,一旦有更好的产品,用户就容易迁移。

AI 是一个新的技术周期,就不要用互联网的思维做产品,而是要做隔代进化的东西。

相比 DAU,我更看重 DTU(Daily Talk User)

智能涌现:豆包是大厂产品,也上线了 AI 播客功能,它的 DAU 又有断层的优势。豆包会把你做的事儿覆盖掉吗?

焦可:豆包是工具型产品。

智能涌现:不少用户同样在和豆包建立情感联系。

焦可:我们看比例,大多数用户仍然把豆包当成搜索工具

Chatbot 是即插即走的,用户很难产生 Long Context。现在来福的用户日均使用时长已经到了半个小时。

而且你得主动和豆包交互,再等待回应。来福不需要你主动交互,它反过来根据你的需求陪伴你。所以只要你打开来福,你会发现来福已经根据你的兴趣,把节目主动制作好了,你不需要额外付出交互成本。

智能涌现:用户使用时长是你最关心的指标吗?

焦可:这么说,我更关心 DTU,Daily Talk User,也就是每天有多少用户在讲话

DAU 对我们而言不是重要指标。只有用户的 Long Context 决定长记忆的量,DAU 随时会走。

智能涌现:那你需要和几个大 App 抢夺用户的注意力和时间。

焦可:是的。这两年用户比较容易沉浸在某几个大 App 里,获取新的用户时间很难。

所以我们现在也在追求高留存,让用户在长留存中产生足够的周均使用时长。

这对创业者来说是个挑战。所以我们现在也在和一些汽车厂商合作,帮他们做车载个性化 AI 电台。

智能涌现:来福会怎么做增长?

焦可:未来我们还是会先面向一二线城市的上班族,从他们的通勤时间切入。这是一个比较确定性的需求。

智能涌现:不只是大厂,国内现在聚焦 AI 音频制作的公司不少,来福有所谓的 " 护城河 " 吗?

焦可:大家的定位还是工具。我的观点是,使用工具的创作者是少数,内容消费者才是大多数。消费者在意的是服务,所以来福提供完整的内容服务。

光有内容供给是不够的,我们要解决的是分发问题

AI 推荐音频目前是蛮有门槛的技术。音频的推荐筛选效率比较低,不像视频,用户看了开头就知道喜不喜欢,但音频你得听一两分钟才能决定。

所以目前我们自己搭了一套工程体系:

一块是主播和内容的 AI 生成管线,一块是 AI 音频的指令交互界面,还有一块是长记忆的 Infra 层,因为 AI 的记忆既会影响生成的内容是否匹配用户喜好,也会影响推荐分发的准确性。

智能涌现:国内有和你们做同样事情的公司吗?

焦可:从目前发布的产品来看,大家做的都是单点的音频模型,或者创作工具。但把一套服务做完的,只有我们。

智能涌现:小宇宙之类的播客平台,有内容和用户基础,未来他们做 AI 播客,你怎么竞争?

焦可:不少上个时代的平台,基本盘是人类生产的内容。这样的平台其实不太容易引入 AI 内容。即便引入,也会打一个 " 疑似 AI 生成 " 的水印,或者尽量降低权重。在我看来,这是一种歧视。

当你的基本盘是人类时,天然就会有一堆人维护原有的创作生态。就像胶片相机厂商,即便掌握技术,也很难转型成数码相机,这就是柯达当时发生的事。

智能涌现:这是用户教育可以解决的问题吗?

焦可:小宇宙的用户群和我们不一样,因为他们贡献的价值和我们也不一样。

小宇宙创始人 Kyth 说,小宇宙是在丰饶时代创造稀缺价值。独特、深度信息是小宇宙提供的价值,但消费群体只是少数人。

就像长视频平台出品的是精品内容,但创造的商业价值远不及抖音。抖音的核心价值不是短视频,真正有价值的东西是个性化,每个人都能被提供自己喜欢的内容。

所以来福贡献的价值也是个性化的播客。每个人打开来福,被推送的内容是不一样的。AI 能把个性化的价值往上发挥到更高的 level。

智能涌现:先发优势对你来说重要吗?

焦可:我创业这么多年,意识到节奏是最重要的事。我们可以快,但不能急。

如果我们求快,推出一个不 solid 的解决方案,用户是很容易被其他新供给抢走的。就像朱啸虎说的,一旦用户流失,如果要重新召回,在移动互联网时代可能要花 10 倍以上的成本。

智能涌现:之前有创业者提到,C 端产品第一天不收钱,之后就再也收不到钱了。你认同这个观点吗?

焦可:这得看产品的类型。第一天必须收钱的,叫做 " 旅游型产品 ",就好比你去旅游城市,一冲动在那儿买了房,结果之后根本不会住。

这些产品不是持续性的刚需,所以只能在第一波赚到钱。如果你相信自己做的是有留存的产品,一个越使用、用户忠诚度越高的产品,为什么要把收费门槛设置在第一天呢?我想和用户长期发展信任关系。

智能涌现:和用户长期发展信任关系后,你怎么设计来福的商业模式?

焦可:最容易做的是广告。AI 主播可以用自己的风格去口播。

但其中也有问题。音频产品很难衡量广告效果,品牌不知道用户购买行为,是不是由于听到音频的推荐。

长期来看,AI 核心的商业模式不是广告,而是用户付费。广告建立在商家和用户的信息不对称上。但 AI 其实在不断消除信息不对称。

智能涌现:来福目前面向的是国内市场。为什么你没有向大多数创业者一样 day 1 选择出海?

焦可:因为国内的音频需求很大,但供给比较弱。海外音频的供给挺强的,成熟市场意味着用户需求已经被较好的满足。

革命往往发生在边缘地区。所以从国内开始跑通产品,尤其是推荐,会比较容易。因为推荐体系建立在用户每天使用、产生 context 的基础上。

语音能产生更多用户上下文

智能涌现:Bet on 音频是行业共识吗?

焦可:不算。我遇到很多投资人,都觉得音频的价值比较低,因为上一代音频公司没有做太大。

当然上一代音频产品的用户量可能不小,但没有成为大众应用,核心原因在于它们都是单边产品,音频退化成了信息承载工具。如果比信息传递效率,音频相较于视频,是不占优势的。

智能涌现:融资过程中你最常被问的问题是什么?

焦可:还是大厂竞争。创业公司如果只做单点功能、单点模型,是非常容易被大厂碾压的,因为大厂可以在单点功能上投入一整个部门的资源。

但来福做的事,实际上跨了好几个部门,包括内容、推荐、语音。对大厂而言,打通这么多业务蛮难的。

融资过程中,一些投资人会说音频不太好做。其实我蛮开心的。当大家都觉得音频好做,这件事大概率已经成为共识,大厂也会进场。

智能涌现:最早 buy in 你的投资人是谁?

焦可:最开始,2025 年春节前,我和红杉的吴茗(红杉中国投资合伙人)聊,她是我在百度的老同事。

她把我推荐给了 Neil(沈南鹏,红杉中国创始及执行合伙人)。Neil 听完之后觉得逻辑很清楚。红杉很快,一周时间就过完会了。拿到钱我就正式创业了。

智能涌现:你是怎么向 Neil 解释自己的创业逻辑的?

焦可:我在百川期间,行业最重要的事叫做 " 探索人类智慧的上限 ",通俗来讲,就是造一个爱因斯坦,能不能记住用户不重要,只要记住物理学定律就行。

但我和小川还有一个共识:在应用侧,记忆是很重要的事,AI 时代真正的壁垒就是长期记忆。

所以,AI 应用的兵家必争之地是 Long Context(长上下文)。用户产生的上下文是 AI 记忆的内容,所以有了长上下文,才会有长记忆。

在所有交互中,只有音频才会产生 Long Context 和 Long Memory。语音是人类最自然的一种沟通方式,语音输入的速度是文字的 4 倍,所包含的信息量是文字的两倍。

未来,AI 会解决内容供给,也会利用记忆重塑内容分发,中间的桥梁,就是产生长上下文的音频。

智能涌现:为什么长记忆对应用很重要?

焦可:上一代的推荐引擎,本质上是根据你的历史行为,根据关键词,参考跟你相同画像用户的行为协同过滤,去猜你可能喜欢什么东西。

但现实中,你给家人朋友推荐饭馆、电影,一定不是靠猜的,而是基于多年对他的长期记忆。所以长期记忆对 AI 应用的价值在于真正记住、懂得一个用户。

抖音推荐算法的逻辑,在 AI 时代将会有新变化:一端,AI 直接生成内容与服务,供给的数量与质量将再发生几个数量级的变化;另一端,AI 基于对用户的长记忆理解用户,从而提供真正属于个人的个性化服务。

智能涌现:用户和一个 AI 主播交互的动力是什么?交互的需求真的存在吗?

焦可:很多场景都需要语音交互。比如我在开车时听节目,突然有个问题,我就直接打断 AI 主播问他们问题,不需要停车打字去搜索。

有时你也会对某个话题感兴趣,比如英特尔和英伟达的对比、去保定的旅游攻略,这些内容人类播客平台或许没有供给,但是 AI 10 秒之内就可以帮你生成定制化的节目。

我们有一个用户,晚上听到了一个讲原生家庭的节目,有感而发跟主持人聊了很久。还有一个用户,因为不同意主持人的观点,跟 TA 激辩了 300 多轮。

智能涌现:产品上线后,buy in 的投资人比例变高了吗?

焦可:变高了。剩下的还是用互联网的逻辑评判语音,觉得我们太贵。

我们不太烧钱,也不想让股东结构太复杂。所以第二轮融资比较简单。

智能涌现:创业过程中你焦虑过吗?

焦可:我个人还好,因为逻辑想清楚了,做就好了。剩下的都是战术上的问题。创业其实每天十有八九都是坏消息,不过这才叫创业,如果一帆风顺,说明你已经在做被别人验证过的事。

如果真要说有什么急迫的事,就是招人。我出来公开发声,其实并不是为了 To VC,我们刚融完一轮。

我们招人的时候就发现,很多候选人想求安稳,更愿意去大公司,或者当公务员。大家的心气儿和 13、14 年那会儿是不太一样的。

所以我出来发声,是因为想招人!很急!

欢迎交流!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百川智能 创始人 小宇宙 红杉
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论