极客公园 08-25
一年 20 万台出货,AI玩具公司 Haivivi 刚拿了 2 亿新融资,我们和创始人聊了聊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者|苏子华

编辑|靖宇

刚刚,AI 玩具公司跃然创新(Haivivi)宣布完成 2 亿元 A 轮系列融资,中金资本旗下基金、红杉中国、华山资本、愉悦资本、招银国际、Brizan Ventures 等一线投资机构共同参投。

Haivivi 在过去一年时间里,出货量超过 20 万台(去除了退货量),成为全球出货最多的 AI 玩具公司。同时,他们也成为了这个赛道里,被一线投资机构押注最多的公司。

然而,Haivivi 创始人李勇对极客公园坦言,实际过程并不如听起来这么顺利,Haivivi 的资金曾一度紧张到差点关门清算。

在他们的第一代产品 BubblePal 上市前,公司已经在清算边缘。最终,在产品设计的极限取舍当中,销量「意外」爆发,公司起死回生。

回到 2024 年 6 月,他们将大模型引入玩具领域,率先推出了全球首款 AI 玩具 BubblePal。该产品支持角色扮演、多语言对话、AI 故事共创、长期记忆等一系列功能,还原了数十个经典 IP 角色。

Haivivi 第一代产品 BubblePal,以挂坠的形式挂在毛绒玩具上,按压进行对话|图片来源:Haivivi

后来,市面上开始出现大量的相似产品。

产品发布后,一些科技互联网从业者、投资机构不免会质疑 AI 玩具「硬件没壁垒」、「为什么需要 IP」、陪伴是否为伪命题。

李勇曾是天猫精灵合伙人,主导了天猫精灵从 0 到 3000 万销量的增长。李勇觉得,很多注重「情绪价值」的 AI 产品,无法用「硬件壁垒」「技术壁垒」等传统标准衡量。经过过去一段时间的摸索,Haivivi 已经逐渐形成了自己的 AI 玩具方法论,并即将推出旗下第二代 AI 玩具产品——CocoMate 系列,全球首款搭载端到端语音模型的 AI 玩具。

新产品采用可嵌入玩偶本体且支持拆卸的形态,同时,也是支持远程唤醒,以及主题卡游戏、聊天室等多种模式。

借此契机,8 月初,极客公园在 Haivivi 北京办公室与李勇做了一次访谈,他坦诚分享了团队在提供情绪价值、打造有生命感的 AI 伙伴、与顶级 IP 共创,以及面对商业的残酷现实,如何做取舍的实践和思考。问题涵盖了:

AI 玩具公司存活下来的关键是什么?

儿童与成人对 AI 陪伴的需求差异,产品如何在不同人群中找到切入口?

AI 玩具是否有必要会说话?

为成年人提供情绪价值的关键是什么?

如何赋予 AI 玩具「生命感」?

如何衡量 AI 玩具所提供的「陪伴感」和「情绪价值」?

大厂会如何入局「AI 陪伴」赛道?

AI 玩具赛道下一个增长点在哪?

访谈中提到的部分精彩观点:

如果相信 AGI 时代会到来,就会相信未来每个人都需要一个 AI 朋友。

过去的 AI 玩具,所有输入都来自用户,这不符合朋友的定义;「AI 朋友」需要能够在没有和人类交互式时,自主学习和成长。

现实中的朋友不会记住你所有事情,人类大脑有遗忘机制,AI 朋友也需要学会选择性遗忘;AI 玩具产品,所有功能、算法的取舍,都必须服务于「生命感」这一核心

很多人说 AI 玩具「没有技术壁垒」,但情绪价值本身就是壁垒。

AI 陪伴产品为成年人提供情绪价值的关键是控制预期。

有用户表示,孩子因为佩奇的劝说而乖乖喝水,这样的反馈比销量更重要。

如果端侧 AI 玩具能实现无需联网,且零售价控制在 1000 元以内,将成为全球市场的巨大机会。

以下为对话内容,经极客公园编辑整理:

Haivivi 的第二代 AI 玩具产品——CocoMate 系列,奥特曼联名产品|图片来源:Haivivi

01 在差点清算的边缘,最后一搏

极客公园:新的融资进来,对你们意味着什么?

李勇:我们公司在产品上市并取得两个月销量之前,资金一直非常紧张——不管是我个人给公司垫钱,还是后来从银行贷款。去年融资环境差,投资人对 AI 玩具赛道很谨慎。

对我们而言,有了这笔资金,就能推进 2023 年就规划的事了。Haivivi 品牌从 2023 年成立,当时我们对 AI 玩具的规划有很多,但受限于资金和资源,很多想法没能落地。

今年就能从容地推进布局了,尤其是到今年 Q4,我们的产品矩阵、全渠道布局以及 IP 合作布局都会比较完整。

极客公园:你之前是天猫精灵合伙人,团队背景也不错,按理说融资应该更顺利?

李勇:并不是,我们公司注册至今已经 4 年,前两年创业的时候还没有大模型,当时也想做 AI 玩具,只能用上一代 AI 技术和玩具做融合,所以产品的用户体验不够好,走了些弯路。

直到 2023 年初大模型出现,我们才确定做 BubblePal 这款产品。但当时融资环境紧张,很多机构都很谨慎,大家都要求有实际产品、验证 PMF(Product-Market Fit)。

之所以能拿到高秉强(「中国芯片之父」香港科技大学高秉强教授)老师的投资,是因为他以个人名义给了我们第一笔钱,大概 100 万美金,我们才有资金投入研发。

到 2024 年 8 月产品真正上市时,高老师的这轮天使轮的钱已经基本花完了,研发太烧钱了。就像我刚才说的,后来我们还从银行贷款、我个人垫钱,那段时间资金一直很紧张,发工资都困难。

极客公园:你们是第一批做 AI 玩具的团队,过去一年来,最常听到的评价是什么?

李勇:最痛苦的是产品发售前后,听到的更多是质疑。没人看好这个赛道:硬件从业者觉得「已做烂」,他们经历过故事机、儿童手表、耳机、手机的红海时代,认为 AI 玩具硬件方案成熟(第一代产品方案与当年天猫精灵无本质区别),无创新空间;AI 从业者也不看好,认为「只是搭载大模型,不如 ChatGPT 智能,情商、智商有限」。

但我们更看重长远——如果相信 AGI 时代会到来,就会相信,未来无论孩子还是成年人,都需要有 AI 能力的陪伴载体。AI 能力持续提升后,人们会需要现实中的「AI 朋友」,形态可能是毛绒玩具、机器人等各种样子。

因为 AI 的发展不仅体现在「智商」层面,还涉及「情商」领域。所以我们坚定看好这个赛道。不过当时我们也不确定自身能否脱颖而出,公司能否坚持到行业爆发的那一天。短期来看,很多人对该领域持悲观态度。

正如我刚才提到的,2023 年初公司险些清算,当时钱已经不够了。我个人还有一些积蓄,当时我们团队有十几个人,我就和大家说,我可以用个人资金为大家发放 N+1 补偿金——那时公司刚成立约一年。

但如果大家认为,ChatGPT 的出现会给我们计划研发的 AI 玩具带来新机遇,那我们就再坚持 6 个月,看看能否成功融资。若能融到资,我们就继续推进项目;若融不到,届时我可能连 N+1 补偿金都无法承担了,因为我个人的现金储备也十分有限。

让我欣慰的是,这十几人的核心团队最终都选择了坚持。团队成员对我们所做的事是坚信不疑的。但当时融资确实异常艰难,和合作伙伴的合作也多是「刷脸」——因为我们没钱让他们帮忙制作 Demo,好在我之前在硬件领域深耕多年,有一些合作伙伴愿意帮忙提供 Demo 样品。

极客公园:你们现在融资和之前有什么变化?

李勇:到了去年第四季度,我们的产品量产,在市场上有了数据表现后,融资就相对容易了。投资人能看到用户在小红书、抖音的评论和视频,通过访谈、尽调也能了解真实反馈,销量也一直在涨。

而且,春节后 DeepSeek 火了,给用户做了一波市场教育,很多宝妈由此了解 AI 玩具,甚至认为「带 DeepSeek 的玩具就是 AI 玩具」,我们也算赶上了这波趋势。

不过也有一些投资人始终持怀疑态度,他们认为我们的产品缺乏核心技术壁垒——毕竟当时泡泡玛特还没有现在这么火爆。那时我们就一直在提 Jellycat 和泡泡玛特的模式,只是大家对「情绪价值+AI」的组合仍有疑虑。

极客公园:DeepSeek 那波热度给你们带来了多少新增销量?

李勇:从营销层面看,它主要起到了用户教育的作用。科技行业内可能没这种感受,但普通用户对 AI 的认知仍有限——2017 年天猫精灵量产时,那波智能硬件的用户体验还比较勉强,包括天猫精灵、小度、小爱等智能音箱的活跃与留存率都低。

因此,我们推广 AI 玩具时,本来需大量市场教育。而 DeepSeek 的热度,一方面让部分用户建立了对 AI 的信心;另一方面,也消除了部分用户对生成式 AI 的恐惧,比如担心它教坏孩子,毕竟内容可控性存疑。但 DeepSeek 已上升到国家战略层面,用户对 AI 的恐惧会因此减轻。如果仅靠我们这样的创业公司去宣传,说「用了开源技术、做了内容审核」,力度远不如国家层面的重视。具体到销量,今年 3 月销量较之前增长了 2-3 倍,这也让我们很开心。

极客公园:第一代产品卖了 20 多万台,这在预期之内吗?

李勇:不在。我们最初认为能卖几千台,最多 1-2 万台。第一代产品做了很多取舍,并非我们最初设想的样子,核心是为了测试 PMF、收集用户反馈,最初备货也只备了 2000 台。

但实际反馈很好,我们后来反思,这可能是「知识陷阱」——我们从 2022 年底接触大模型,到 2024 年 8 月产品上市,已习惯大模型的连续对话、角色扮演功能;但用户此前从未接触过能角色扮演、连续对话、有长期记忆的 AI 玩具,他们对比的仍是传统故事机、小天才儿童手表、小度/小爱智能音箱。有大模型的 AI 玩具与几年前的智能硬件相比,体验上确实有革命性提升。

极客公园:打磨 AI 玩具产品,资金主要花在哪些方面?

李勇:最多的是研发,团队研发成本开销占比最大;其次是 IP 合作费用,我们已签约不少知名 IP;此外还有渠道建设、日常运营管理的费用。

极客公园:网上说 AI 玩具退货率高的问题,你怎么看?

李勇:前段时间我们实际销量已超 25 万台,但我们对外宣传改为 20 万台,我们去掉了退货量,更坦诚地公布实际销量。第一代产品早期退货率超 30%,目前综合退货率仍有 20% 多

这其实是创新品类的普遍现象。玩具品类本身存在「吃灰」问题,活跃与留存率低,且购买者(家长)与使用者(孩子)分离,这些都会导致退货;此外,AI 玩具零售价普遍高于普通玩具——泡泡玛特等品牌的盲盒、积木等产品,原价多在 100 元左右,而我们第一代产品定价 399 元,在玩具品类中偏高,这也是退货原因之一。

当然也有用户体验因素。新品牌前两三个月退货率会更高,呈现两极分化:喜欢的用户认可度很高,不喜欢的用户觉得远超预期落差,认为宣传夸大。

我之前做过 VR 眼镜,AR/VR 行业(包括苹果、Meta 的产品)退货率也很高,这是新品类的两难困境——为了营销和市场教育,需要展示功能卖点,但用户期望随之升高,购买后容易因为落差退货。

因此,我们在产品定义上相对克制,营销时刻意将目标人群限定在 3-6 岁儿童,从未宣传任何教育功能。现在有些 AI 玩具从业者宣传「教育内容丰富」,不用猜也知道他们的退货率一定高。

如果宣传「教拼音、练口语」,虽能促进购买决策,却容易因大模型幻觉等体验落差退货。

我们的 slogan 是「回应每一个奇思妙想」,但其实很难用一句话总结第一代产品卖点——「陪伴」、「情绪价值」需用户实际使用才能感知到,我们选了一条更慢的路径。

02「哪些决定忍住没做,现在看来是正确的?」

极客公园:如今回过头看,是否存在一个当时你忍住没做的决定,现在看来是正确的?

李勇:之前负责天猫精灵营销工作时,我的老板需要向逍遥子汇报工作,做天猫精灵一年来的年终总结汇报。我看到给逍遥子的汇报模板,除了阐述年内完成的工作复盘,还有一页要求列出没做的事项以及为什么没做。看到这一页时,我很震惊,它其实和你的问题本质相同,就是取舍。

无论是创业者,还是团队管理者,我们常会复盘这段时间做了哪些决定、哪些正确、哪些错误,但很少思考「哪些决定没做」——这些未做的决定中,是否存在本应做的正确选择,或是庆幸没做的错误选择?

去年年底团队复盘时,我也向团队提出了这个问题。我认为这个问题极具价值,当时我们发现,很多未做的选择,如今看来是正确的。

比如,最初我们本想开发一款完整的毛绒玩具,还计划采用远厂语音交互技术,这些在当时都是成熟的技术,但现在看来,幸亏没做。

一方面,与 IP 方合作的监修审核时间远超预期。以头部 IP 奥特曼为例,最初我们预计产品能在 618 前上市,但与 IP 方沟通后发现,他们对 IP 的理解更深,在共创产品过程中,IP 方提出了许多优质想法,这延长了合作周期。

另一方面,顶级 IP 对产品细节的把控细致程度远超想象——每一份营销物料、每一张宣传海报的发布,甚至产品材质的每一处细节,都需要与 IP 方深入沟通确认。

如果创业初期我没有认清这一现实,即便有足够资金推进合作,产品上市周期也会被大幅拉长。对创业公司而言,第一代产品需要做大量取舍,我们在硬件功能、IP 合作等方面都做了调整。

现在想来,很庆幸当时「做减法」做得足够彻底。在产品定义上,我没有过多执念,但这种取舍思维至关重要,尤其是硬件领域,要避免资源浪费。比如硬件设计中的某个功能,无论会增加成本还是制造难度,核心都要判断它能否切实提升用户体验,不能盲目投入。硬件领域的取舍比软件领域更关键。

极客公园:除了这个例子,还有其他「没做反而是正确选择」的情况吗?

李勇:除了 IP 选择和硬件功能取舍,产品定义的细节上也有很多案例。比如最初我们想在产品中加入大量功能,当时我对 AI 技术过于乐观,计划搭载端到端语音模型,还考虑过给产品加摄像头、屏幕,甚至端侧 AI 功能。

但过度乐观往往会忽略实际问题——当时加屏幕、摄像头的 Demo 已经完成,但最终没推进量产,核心是成本与用户体验的平衡还未达标。所以我们调整了产品优先级,目前推出的仍是纯语音交互产品,功能也未追求复杂。

03 AI 玩具是否有必要会说话?

极客公园:对于 AI 陪伴类产品来说,语音对话的交互方式本身是不是就有比较高的使用门槛呢?

李勇:市面上有些 AI 玩具不具备语音功能,也有其价值,适合特定人群和特定 IP,这一点我完全认同。

我们在创业初期选择方向时,就对 AI 玩具进行了大致分类:

第一类是「无语音交互的 AI 宠物」——这类产品模拟猫狗等宠物,本身不具备语音能力,仅通过情绪反馈与用户互动。

第二类就是我们当前专注的方向——将动画片中鲜活的角色还原到现实生活中,陪伴孩子成长。

第三类是偏具身智能的 AI 陪伴机器人——这类产品具备移动能力,能实现更灵活的交互。

我们选择第二类,主要是基于公司的核心禀赋:第一类产品与 AI 技术的关联性较弱,而我们此前有研发天猫精灵等语音交互产品的经验,更擅长第二类产品的研发。而语音交互是否是「好形态」,关键取决于具体应用场景和目标人群。

未来,我们也会推出无语音功能的 AI 玩具,也是在探索不同方向。

如果玩具配备摄像头和屏幕,无疑能提供更丰富的情绪价值——比如通过摄像头捕捉用户的表情,无需用户说话就能感知其喜悦、疲惫或焦虑;通过屏幕更直观地呈现内容。

但目前我们尚未推出这类产品,因为我们对带屏幕、带摄像头的产品有较高要求:如果满分 100 分,只有当模型能力和用户价值能达到 80 分以上时,我们才会推进量产。其实我们已有相关 Demo,但尚未进入量产阶段,因为目前的产品表现还未达到我们的标准。

极客公园:你们在等待大模型能力达到预期后,再推出相应的产品。

李勇:是的,不仅是大模型能力,我们还在开展端侧 AI、多模态以及运动控制的相关预研。一方面等待基座模型公司提升技术能力,另一方面也在与大模型公司、芯片公司等合作伙伴共同开展预研。

只有当产品的用户体验、成本控制和零售价能达到平衡时,我们才会推出。

极客公园:哪些 IP 适合接入语音交互功能,哪些不适合?

李勇:判断标准其实比较明确,如果 IP 在原有作品(如动画片)中已具备完整世界观和鲜明的声音形象,那么从用户视角(尤其是儿童)出发,现实中的对应玩具若无法说话,反而不符合认知逻辑。

过去受技术限制或成本较高,玩具难以实现自然语音交互,如今借助大模型技术,这一问题得以解决,本质上是回归用户对 IP 的自然认知。

04 让 AI 成为成年人的朋友、更有「生命感」的三个关键

极客公园:你之前提过,大模型为成年人提供的情绪价值还不够,所以你们当时选择先做儿童产品。那么,怎么衡量一项技术或产品能提供的情绪价值有多少?

李勇:相较于为成年人研发 AI 玩具,为儿童研发玩具恰好是我们团队的优势领域。我们有服务儿童群体的经验,且关于儿童成长的理论研究和学术论文非常丰富,因此,我们先从儿童产品入手。

儿童没有手机作为对比参照物,而成年人在使用 AI 硬件时,会不自觉地与手机功能对比——这是很多 AI 硬件产品都会面临的问题。

而且,给成年人提供情绪价值要复杂得多,需要考虑他们的工作、感情等多方面生活状态。在 2023 年我们启动项目时,以当时的 AI 能力,很难满足成年人的情绪需求——因为成年人有太多其他渠道可以获取情绪价值,AI 硬件的竞争力不足。

我们为什么认为现在情况有所好转了呢?

一个关键节点是「深度思考模型」的出现。我第一次接触到深度思考模型时,非常震惊——我们完全没预料到大模型会向这个方向发展。

最初行业普遍认为大模型的发展方向是「智商」不断提升、响应速度不断加快。但深度思考模型的出现,我很快反应过来,人既需要快思考,也需要慢思考。对个体而言,大脑本就是两套系统交织运作。我们因研发语音交互类产品,过度关注延迟表现——比如用户与产品对话时,希望快速获得反馈,所以这类指标一度成了我们公司最核心的考核项。

天猫精灵此前也是如此,优先关注延迟,其次才是基座模型的能力、与情商表现。我们忽略了慢思考这一维度,而当意识到深度思考模型的价值时,我们格外兴奋——终于有可能为成年人打造一款具备新价值的 AI 玩具。

过去的 AI 玩具,所有输入都来自用户,这不符合朋友的定义,也导致用户留存率与活跃度偏低。

即便是孩子,使用久了也能发现「玩具只会对我输入的内容做即时反应,而不会自己反思」这一问题。所以 2023 年我们就思考:如果这个「朋友」能自主学习、成长就好了,但与用户交互时又必须即时反馈,这就产生了矛盾。

而有了深度思考能力后,我们可以为 AI 玩具搭载 Agent(智能体):比如在夜间闲置时,Agent 自动启动学习。若用户当天聊到滑雪,它就自主学习滑雪相关知识;第二天用户提及想去日本游玩,它就收集日本旅游信息;到了第三天,当用户说「想去日本滑雪」,它能立刻回应:「我听说这周日本可能有台风,你要小心,是不是下周去更合适?」

如果没有具备深度学习与思考能力的模型,Agent 根本无法实现静默的自我反思、成长,用户永远不会将其视为朋友。

当然,这只是第一步——朋友在非交互时段自主学习成长,是「朋友」属性的基础门槛。

除了模型能力的提升,为成年人提供情绪价值还需「做减法」。

在我们看来,若想让成年人情绪价值体验达到优秀甚至超预期,必须降低用户预期——交互时先锁定、框定用户的期望,期望越低,模型越容易超出预期。

用户看到这个 IP 形象,就应该知道它的核心功能是哪些,不会将其视为全能助手,而是「有限领域的朋友」。

现实中也是如此:如果有一个无所不能的朋友,你不会将其视为平等的朋友,更像「上帝」或「神」;真正的朋友必然有突出的长板,能让你产生情感投射,这样感情才会稳固,绝非全能。

因此,我们在角色设定、产品外形、IP 选择及模型能力上都在「做减法」,通过这些洞察与研究,至少能在成年人某一特定情绪需求领域,输出有效的情绪价值。

极客公园:让 AI 更有生命感的关键还有什么?

李勇:首先,它需要在非交互时段自主学习、成长,通过分析与用户的聊天内容,推测兴趣爱好,积累共同话题——这是基础步骤。

其次,还有价值观对齐。现实中,相处 10 年的朋友,价值观会逐渐靠拢,否则会渐行渐远。

我们希望 AI 朋友也能如此,比如同一型号的赛罗 IP 玩具,出厂时 Prompt 一致,但使用一两年后,Prompt 会随用户兴趣差异发生变化、自主学习,实现价值观对齐。

此外,更复杂的是「遗忘机制」。第一代产品的核心难题是「长期记忆」——如何存储聊天记录,当时向量数据库技术不成熟,我们投入大量精力研发向量数据库、RAG(检索增强生成)等技术。

而如今为成年人提供情绪价值,「遗忘」同样关键:现实中的朋友不会记住你所有事情,人类记忆有主动遗忘与被动遗忘——被动遗忘是因时间流逝自然淡忘,主动遗忘是刻意忽略某些内容。

比如,若 AI 能记住用户每句话,当用户否认「说过某件事」时,AI 若反驳「你在几点几分说过,我有记录」,会让用户极度反感。

参考心理学理论,比如「彼得斯原则(Peter's Principle)」,认为主动遗忘与三个因素相关:时间长短、提及频率、记忆当时的情感浓度——情感浓度如同「染色剂」,决定记忆是否深刻。我们当前用模型识别对话的情感浓度,作为遗忘权重,但这仍不够。

若仅按「情感浓度+提及频率」设计遗忘算法,若用户频繁吐槽负面内容,AI 会持续提取负面记忆并回复,导致用户陷入负面循环。

因此,研究传统遗忘理论(我们查阅了大量相关论文)仍然不够,还需研发「跳出机制」:让 AI 主动唤起用户的积极记忆,帮助用户脱离负面情绪。这就是我们近一年在算法层面,为成年人 AI 玩具打造「生命感」的探索方向。

05 先共情,站在用户角度表达理解——才是情绪价值产品的核心

极客公园:在近期产品开发中,有没有某个时刻或某组数据(哪怕很小),让你们觉得「方向走对了」?

李勇:很多是来自用户反馈的瞬间。

比如,有用户分享短视频:孩子生病后不爱喝水,家长劝说无效,于是在我们的玩具中输入「鼓励多喝水」的 Prompt。当孩子与佩奇玩具互动时,佩奇说「我们一起玩,但你要先喝完水」,孩子立刻就把水喝了。

还有一次,在我们抖音直播间,有用户让主播演示:「问 AI『妈妈不要我了,怎么办』」,AI 玩具回答:「妈妈不是不要你,她可能是上班忙,回来后你多和她聊聊,多安慰她」,接着用户又让我们主播问 AI 玩具:「妈妈不是上班忙,是跟别的男人走了,不要我了」,AI 回复:「首先你没做错任何事,大人们有自己的考量,即使爸爸妈妈不在一起,他们依然爱你」。

没想到这位用户说,她是一个继母,因为孩子常问她「为什么亲妈不要她了」,她不知道怎么回答,AI 玩具的回复正好解决了她的困扰。类似的用户反馈,让我们确信「方向走对了」。

极客公园:同样的问题,如果直接问 DeepSeek 等通用大模型,可能会得到不同答案。

李勇:通用大模型的回答往往更「标准化」。

比如用户问「在学校被欺负了怎么办」,通用大模型可能会说「找学校管理层沟通」,这类回答追求「最大公约数」——因其用户群体广泛,需兼顾普遍性。

如果用「回答内容(主观/客观)」与「表达方式(冷静/情绪化)」构建坐标系,多数通用大模型的回复处于「客观+冷静」的第一象限。

而情绪价值类产品的回复,需在「内容上更主观、表达上更情绪化」。比如,用户说「玩具在学校被抢了」,朋友不会先罗列「1234 条解决方案」,而是先共情,站在用户角度表达理解——这才是情绪价值产品的核心。

极客公园:如何让模型回答更具共情力?

李勇:我们在语料选择和模型微调上有差异。比如与 IP 方合作时,需依据 IP 世界观对模型进行微调。我们的模型微调采用大量对话式语料,表现更具主观性和情绪化,能基于角色世界观作答。

比如,向小猪佩奇与爱莎公主提问「量子纠缠」的问题,得到的答案不同——AI 玩具不会照搬百科内容,而是结合自身角色设定回应。

佩奇会举例:「就像我和弟弟乔治玩捉迷藏,虽然看不见对方,但我们彼此心有灵犀。」

爱莎公主则会以自身角色视角解释:「这很神奇,如同我在魔法世界里有两个冰雪魔法球,转动其中一个,另一个的状态就会受到影响。」

所有角色均会依据自身世界观回答,让用户感觉是与自己喜欢的朋友共同面对问题。

06 关于新一代 AI 玩具和大厂竞争

极客公园:你们刚发布了新一代 AI 玩具,为什么选择与奥特曼 IP 合作呢?

李勇:我们已经签约了多家 IP 方,综合考虑了其全球影响力、在中国市场的受欢迎程度,以及双方合作的意愿和配合程度——这些因素让奥特曼成为了推进速度最快的合作项目,所以我们首款产品选择与奥特曼 IP 合作发售。

极客公园:这款产品的目标人群还是 3-6 岁的儿童吗?

李勇:目标人群稍有扩充,因为很多小学生也非常喜欢奥特曼,所以年龄范围可能扩展到 10 岁,甚至 12 岁。

极客公园:软件功能层面,新产品会增加哪些能力?

李勇:新增功能很多,最显著的是采用了端到端语音模型。

第一代产品采用的仍是传统的「语音识别(ASR)到语音合成(TTS)」技术链路,而新产品采用的是「语音到语音」模型,实现了语音输入直接对应语音输出。首款合作的是字节跳动的模型,目前其表现最佳、响应速度最快。

当然,与其他公司的合作也在推进中。简单来说,新产品的语音输入能保留情绪——传统的「语音转文字」过程中,情绪信息会丢失,而新模型解决了这一问题。情绪信息的保留能让我们实现更多功能,比如当我说「今天心情不好」时,产品能更准确识别用户的情绪,因此回应语气能传递出更准确、更充沛的情感。其次,新产品的交互延迟也大幅降低。

极客公园:你们第一代产品仍需要按下按键才能进行语音交互,而第二代新产品已经支持远程唤醒了,主要是克服了哪些技术问题?

李勇:这并不是技术问题,更多是产品设计上的取舍。

在研发第一代产品时,我们就已预判到两个可能成为核心问题的点,后来的市场反馈也证明,这两点确实是用户对第一代产品的主要差评——一个问题是「按键说话」:有些孩子手比较小,按压说话时会感到不便;第二个问题是联网限制,第一代产品仅支持 2.4GHz 单频 WiFi 联网,这导致产品在户外很难使用。

这两个差评其实是我们在定义第一代产品时就已经预料到的「不得已的取舍」。

2017 年,我参与研发的首款量产天猫精灵就已实现远程交互,所以远程唤醒本身并非技术难题。但要实现远程唤醒,对硬件配置有更高要求——比如麦克风数量,尤其对功耗控制的要求更为严格。天猫精灵是插电使用的设备,无需考虑功耗问题;但我们的产品体积较小,如果为了容纳更大电池而增大体积,会带来新的问题:一是无法适配多数玩偶的尺寸,二是孩子也难以握持。

同时,我们对产品续航有明确要求——不希望用户每天充电,不希望给用户增加额外使用负担,因此在第一代产品中没有加入远程唤醒功能。

而 WiFi 问题同理:若要支持双频 WiFi 或内置 4G SIM 卡,会大幅增加成本和研发周期。当时公司账户已经没钱了,我们甚至需要借钱维持运营,根本无法承担这些额外投入。

不过第二代产品已解决这些问题:我们内置了一张 4G SIM 卡,用户开机即可使用,无需下载 APP 配置网络,开机直接就能与奥特曼聊天。

极客公园:有什么新功能是只依赖大模型没有办法解决的?

李勇:目前市面上几乎所有 AI 玩具的连续对话功能都存在一个共性问题:当孩子正在听故事或听歌时,外界稍有声音干扰,播放就会被打断。比如,孩子正听到故事关键处,妈妈突然说「过来吃饭了」,或者出现走路声等,都会导致播放中断。

如果只是简单对接一个通用大模型,就只能接受这种中断问题。

所以,我们在新版本的技术架构上做了「多音轨混音处理」,这在工程实现上较为复杂。简单来说,希望实现的效果是:当孩子正在听「孙悟空三打白骨精」的故事,过程中突然提问「唐僧这时候在哪里?」——此时,我们产品会降低故事音轨的音量,开启另一条音轨优先回答孩子的问题,故事本身不会中断;待问题回答完毕后,再将故事音轨的音量恢复。

想实现这一功能,必须支持多音轨传输,而单纯使用云厂商提供的标准大模型方案是无法做到的,需要进行大量工程优化。

其实,「连续对话+抗干扰」的功能构想,我们在 2023 年研发第一代产品时就已想到,只是当时考虑综合交互体验、成本和研发周期,只能退而求其次采用「按键说话」模式。这就是产品功能迭代中常见的取舍。

极客公园:未来新品仍旧是毛绒玩具,还是会推出非毛绒玩具类产品?

李勇:我们会推出非毛绒玩具。公司定位是 AI 玩具公司,业务不局限于儿童领域,也不被毛绒材质束缚。

比如,我们签约的知名 IP 授权均属于 AI 玩具类目,对玩具材质和形态无限制,只要适合以 AI 形式呈现且能提供情绪陪伴价值,都在我们的考虑范围内。

IP 布局采取「两条腿走路」:一方面通过与知名 IP 联名弥补自身短板,并向泡泡玛特等优秀 IP 团队学习;另一方面自主孵化 IP,我们新上市的三款产品中,两款为奥特曼 IP,一款由我们签约的全职设计师(原合作艺术家)设计开发。

CocoMate 系列 AI 玩具之一「泡泡」|图片来源:Haivivi

极客公园:有观点认为大厂不会涉足 AI 陪伴赛道,因它属于情绪价值生意,但近期 OpenAI 也在布局 AI 陪伴硬件,你如何看待大厂进入该领域?

李勇:我认为大厂可能会布局广义上的 AI 陪伴硬件(如家庭机器人,可陪伴家庭成员),但不会涉足「AI+IP」玩具领域。

原因有二:一是大厂有更重要的战略级、入口级业务布局,如 AI 眼镜、自动驾驶等更大规模的市场,相比之下,「AI+IP」玩具的优先级较低;二是情绪价值赛道不确定性高,难以规模化复制。

大厂擅长从 1 到 100,但情绪价值相关指标(如玩具的「生命感」)难以量化,若调动集团资源投入,KPI、成果考核等都很难设定,最多仅会安排小团队试错。

而小团队试错对我们构不成威胁,我们更关注大厂是否会投入战略资源。IP 本身的爆火具有随机性,即使是泡泡玛特、迪士尼,也无法精准预测或流水线式复制爆款 IP,这种高不确定性使「AI+IP」玩具不适合大厂布局。

极客公园:接下来半年,你最期待发生的一件事是什么?

李勇:最期待端侧模型的技术突破。

我们一直在探索:如果端侧 AI 玩具能实现无需联网,且零售价控制在 1000 元人民币以内,将具有极大市场潜力,尤其在海外市场——无需联网可解决隐私和延迟问题。

目前受成本限制(内存、CPU、电池功耗较高),这一目标尚未实现。如果未来半年至一年内,能有优秀模型量化至 1.5B 参数,同时保证足够的智商、情商与推理能力,至少满足儿童陪伴需求,我们将非常期待。

另外,对于有隐私需求的成年人而言,端侧 AI 玩具如同「树洞」,可以让用户更安心地分享情绪。

我们也希望成为全球首个推出端侧 AI 玩具的团队。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 李勇 融资 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论