说起时空壶,差友们应该不陌生了,毕竟之前差评君已经跟大家聊过好几次这个做 AI 翻译产品的品牌。
远的不说,就在 3 个月前,我们举办了一场别开生面的 " 人机大战 ",作为 AI 翻译代表出征的时空壶 AI 同传耳机,就让大家看到了其不同于人工同传的优势。
但您猜怎么着,前几天我刷视频的时候猛然发现,时空壶居然上了新闻联播,并且播了得有近 4 分钟。
咱们都知道新闻联播一般也就播个 30 分钟,如果不是在经济、文化和科技等领域有突出表现的企业,不太可能有这么长的报道篇幅。
不儿,哥们这么有实力的吗?
正好咱们前阵子刚聊过 9.9 美刀的 AI 翻译耳机,以及接下来苹果也将会给 AirPods 上实时对话翻译功能。
要不趁着这波热度,咱们一起到时空壶那里看看,他们到底和市面上一众 " 实时翻译耳机 " 有啥区别,凭啥能上新闻联播?
于是我和同事们一起来到了时空壶位于深圳南山的 " 老巢 "。
到了他们公司后,我二话不说就开始嘎嘎体验产品。
然后我就发现,虽然都叫 " 实时翻译耳机 ""AI翻译耳机 ",但是时空壶跟我之前体验的其他产品,完全就是两个东西。
举个很典型的例子:其他产品在翻译时,但凡你普通话不是很标准,把 " 人工同传 " 说成 " 人工同床 ",它就没法给你识别和纠错。相比之下,时空壶就能给你翻译准确。
其他翻译耳机的 APP 界面
那对于这种体验上的差异,时空壶又是怎么看的呢?
一方面,他们觉得目前市场上的翻译产品,在能力上还是参差不齐,需要有个统一的标准来划分技术等级,不然会把本就不太成熟的 AI 翻译市场给玩坏。
另一方面,时空壶之所以在翻译准确度领先别人,也是因为他们更新了大模型翻译技术。
先说第一点,他们目前已经在跟同传领域的专家和学者们,一起研究搞AI翻译技术分级。
具体怎么去分级呢?
他们参考了自动驾驶的分级标准,也是划分了 L1 到 L5 五个等级。
其中 L1 是最基础的文本翻译,相当于你自己查电子词典,效率是最低的,延迟大概数十秒。
L2 是从文本翻译进化为语音翻译,比如手持翻译机、带翻译功能的蓝牙耳机,可以给你播放语音翻译,延迟大概十多秒。
L3 已经是语音同传翻译了,在能力上非常接近人工同传,基本能做到 5 秒延迟,可以让对话双方实现自由地交流。
时空壶给自己目前的定义就是 L3 级别。
L4 进化为高级译员同传翻译,如果说 L3 是接近人,那么 L4 就是等同于人,到了这个级别,它能够把你的语气和情绪都给翻译出来。
比方说,你说话的时候是带着疑问还是愤怒,这些都可以在翻译结果中体现出来。
而 L5 就属于是超越人的范畴了,它可以基于多模态能力去观察你想要表达的意思,比如你的表情,或者是你过去积累的一些表达习惯。
这个东西就相当于一个会 " 察言观色 " 的智能助理,真正的贾维斯了属于是。
如果这个翻译技术分级能真正落地,我觉得对于行业和消费者都是件好事。
有了分级,行业不再是一片混乱,想要割一波就走的企业没法浑水摸鱼;而消费者也能清楚自己花钱买到的产品到底是个什么水平。
再来说说,他们的大模型翻译技术是如何去提升准确度的。
产品经理跟我说,过去的机器翻译无法理解语义和语境,主要依赖逐字直译,不仅没法识别各种语气词、停顿词和重复词,还容易闹出一些笑话。
比如在点菜这个场景下,传统机器翻译由于没法很好地识别 " 点 " 的意思,会给你翻译成英语的 "Click",变成点击的意思。
对于这些问题,他们开发了全新的 AI 同传翻译大模型,并且国内也会接入豆包和 DeepSeek 等大模型。
在大模型的加持下,它能像人工同传那样,根据当下的主题和背景,联系上下文,分析对话的主旨,把你想要传达的真正意思翻译出来。
时空壶已经从以前的直译进化为意译了。
比如,同样是 " 同传 " 和 " 同床 " 的问题,时空壶就可以结合你的上下文,知道你当前聊天的内容与同声传译有关,从而对翻译内容进行纠错。
在听懂人话、传达你的真正意图这件事上,时空壶无疑又先于同行们迈出了一步。
而在跟他们聊了一下午后,我算是明白了,他们的成功秘诀就是:
愿意在自己看好,但别人不看好的领域,投入大量的精力和技术,然后埋头苦干。
更具体的,咱们接下来再好好唠唠。
说起当时为啥会想到做 AI 翻译耳机,时空壶的创始人田力表示,其实一开始他也没想到去做这个东西。
2016 年的时候他意识到 AI 技术是未来,于是从华为出来创业后,就想着朝 AI 应用这个方向发力。
一次偶然的机会让他发现过去的翻译产品始终存在局限性。
后来,他也自己尝试着使用翻译软件去跟老外交流,结果发现这种按着说话、松开翻译,只能你说一句、我说一句的翻译体验,压根没法实现长时间的对话。
过往的这些经历和观察,让田力意识到,即便翻译技术在当时已经非常成熟,但是在具体的对话场景中,两个说着不同语言的人压根没法很自然地交流。
在找到了场景痛点后,田力就着手组建团队开发产品。
但刚开始做,他们就碰了一鼻子灰。
原本他们的想法很简单,就是把一个翻译软件直接塞进蓝牙耳机。
至于具体的实现方案,他们觉得能在深圳找到合适的方案供应商,毕竟在电子产品这块,华强北啥都能给你搓出来。
然而事实证明,他们当时选择的是一条无人走过的赛道,行业也没有可行性方案供他们选择。
于是他们刚开局就遇到了行业的第一大难题:通信。
是的没错,跟很多人想的不一样,做 AI 翻译耳机最难的还不是 AI,而是通信技术。
那它难在哪呢?
是这样的,他们一开始设想的场景是,两个人各戴一只耳机进行交流。
但在产品开发阶段却发现,标准的蓝牙耳机走的是单通道录音,压根不支持两只耳机同时录音。
也就是说,两个人各戴一只耳机对话时,只有一个人的声音能被录进去。
这样一来,他们的设想就失去意义。
估计当年大厂们围坐一起讨论蓝牙协议的时候,也没想到多年后会有一家初创企业有如此疯狂的想法——基于蓝牙协议去做多人录音。
听他们说,当时甚至还找了高通和海思等芯片厂商的工程师咨询,但都没有一个很好的解决方案。
由于没有先例,行业里也找不到现成的解决方案,所以时空壶只能够自己搞。
他们从 2017 年开始自研通信技术,经过 4 年的埋头苦干,终于在 2021 年发布的时空壶 W3 上,实现了两只耳机同时录音的 " 双向通信 " 技术。
但你以为搞定通信技术就够了吗?
显然不是的。
因为他们发现 AI 翻译耳机要提升沟通效率,还要解决另一个难题:录音降噪。
简单来说,当两个人各戴一只耳机进行交流时,你的声音很容易串到对方的耳机里,对方的声音也是如此。
同时,环境的杂音也容易对录音效果造成影响。
而翻译耳机不同于普通耳机,它对于声音的质量有更高的要求。
正在进行降噪测试的 W4 Pro
因为机器需要对声音内容进行识别并翻译,而机器对错误声音的容错率比人耳低,毕竟咱们可以靠自己脑补嘛。。。
对于这个问题,市面上的一些翻译耳机搞了个 " 土办法 ",那就是用手动控制的方式,来避免两个耳机出现串音——
打个比方,两个人在交流时,需要一个人按下按钮讲完话后,另一个人才能在耳机听到翻译结果,然后接着同样的操作进行交流。
" 这种类似交替翻译的形式,沟通效率是非常低下的,甚至不如你用传统的翻译 APP。"时空壶的产品经理这么跟我说道。
相对而言,时空壶的解决方案是,给耳机用上三麦克风阵列 + 矢量降噪技术。
相当于通过算法判断声音的方向和距离,确保只录入佩戴者的声音,然后对其他无关的声音进行抑制。
这样哪怕是周围环境非常嘈杂,耳机也只会收到你自己的声音。
那实际效果是不是有他们说的那么牛 X 呢?
我们也替大家试了一下。
即便是在耳机旁边播放动感舞曲和增加人声干扰,经过降噪处理后,它也能保证只录进佩戴者的声音,消除掉其他噪音。
除了沟通效率的问题外,产品经理跟我说,准确度和延迟也算是行业内的技术难点。
关于准确度,咱们开头已经聊过了,这里就不再啰嗦了。
而说到延迟,产品经理表示:过去的文本翻译,只要网络好,它甚至可以做到零点几秒给你出结果,并且还能不断地根据上下文去调整翻译结果。
但是语音翻译不行,因为语音一旦开始合成播放,它没法像文字一样随时纠正,这就导致了在快速地播放翻译结果时,大概率会出现翻译结果越来越歪的情况。
所以你会看到,目前市面上的很多 AI 翻译耳机,为了保证准确率,它都会等你说完一整段话后,才开始出语音翻译结果。
为了解决这个问题,他们搞了个叫做AI语义判断的技术。
让 AI 实时判断每句话的语义,一旦它觉得你这句话的意思不会发生改变了,那么它就会开始输出语音翻译结果。
按照他们的测试结果,行业内其他家能做到的最低语音延迟也就是十几秒。
相比之下,时空壶是已经做到了 5~8 秒的平均延迟,跟人工同传大概 3 秒左右的翻译延迟相比,算是很大的进步了。
总之,跟他们这么一顿聊下来,我感觉做好一个 AI 翻译耳机,远没有大家想的那么简单。
市面上类似的产品千千万,但实际想要搞好体验,蓝牙通讯、录音降噪、翻译引擎、语义判断。。。等等等等,每一座 " 大山 " 都不好啃。
而时空壶作为开拓者,显然给行业证明了这条赛道的可行性。
按照他们的说法,在 AI 翻译设备这个品类中,时空壶在北美亚马逊的市占率已经做到 40%,过去 3 年里他们实现了产品销量年均 100% 的增长。
并且今年海关总署还将他们的产品,作为 2024 年 " 中国制造升级 " 案例进行展示。
图片来自深视新闻
可以说,时空壶已经成为 AI 出海企业的标杆。
从攻克各种技术难关,建立技术壁垒,再到提出翻译分级标准,时空壶确实贯彻了他们创始人的创业哲学——
" 在混沌中寻找出路才是小公司的出路。"
目前来看,他们的出路似乎已经找到,但随着他们不断探索 AI 翻译领域的 " 无人区 ",面临的挑战也会越来越多。
这里咱也只能祝愿他们能够一路披荆斩棘了。
撰文:粿条
登录后才可以发布评论哦
打开小程序可以发布评论哦