雷科技 6小时前
重大更新!Google翻译接入Gemini 3.5 LT,我们实测了一波
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

前段时间举行的 Google I/O 上,Google 正式发布了新一代 Gemini 3.5 模型,同时也提到未来会将 Gemini 的能力融入到 Google 生态的更多产品中。

但让雷科技没想到的是,第一个用上 Gemini 的 Google 生态应用并不是搜索、Youtube、地图等 Google 生态大户,而是近几年存在感不断降低的 Google 翻译:昨天,Google 发布 Google 翻译更新,在翻译中加入了最新的音频模型 Gemini 3.5 Live Translate(下文简称 Gemini 3.5 LT)。

图片来源:Google

那么在 Gemini 3.5 LT 的驱动下,Google 翻译的实时语音翻译功能体验又如何呢?

打开 Google 翻译的实时翻译功能,选择「实时听」模式,就能进入全新的 Gemini 3.5 LT 驱动的翻译模式了。不过奇怪的是,这个「实时听」模式必须连接外置耳机才能激活。考虑到 Google 翻译这个实时听模式并不能像时空壶同传模式那样双向同时工作,雷科技对这个「必须接耳机才能用」的设计实属不解。

好在这个「实时听」模式的操作还算简单:打开实时听模式,把手机靠近对方,耳机里就能「实时」听到翻译后的音频了。

图片来源:雷科技

和 Google 翻译之前那个按住才能说话、松手才开始翻译的「对话」模式相比,实时听模式会在对方完成一个短句后开始翻译,时效性要高不少。但在翻译时,Google 依旧有比较明显的延迟。

以中译英的古诗翻译为例,要念到第三句时,耳机里才会听到第一句的翻译,和专业同传耳机那种几乎「同时启动」的翻译还是有点差距。

至于翻译准确性的问题,雷科技这里给 Google 翻译安排了几个比较经典的游戏对话「原声大碟」用于测试,同时也拉来了苹果翻译和有道翻译作为对比。

我们先来看看原文,相信玩过 GTA:SA 的玩家对这段点餐录音都不会陌生:

I'll have 2 number 9s, a number 9 large, a number 6 with extra dip, a number 7, 2 number 45s, one with cheese and a large soda.

以下是 Google 翻译「听」到的英文原文:

Now, I have two number nines, but number nine Lord, number six with extra dip, a number seven, two number 45s, one with cheese and a large soda. Okay.Okay.

可以看到,即使是有 Gemini 3.5 LT 驱动的 Google 翻译,在一些细节处也会错过原文,比如:

I ’ ll have 变成了 I have(连读遗漏);

a number 9 large 变成了 but number nine Lord(识别错误);

开头、结尾处也多了 Now 和 Okay.Okay.(识别幻觉)。

不过在翻译效果方面,Google 翻译倒是准确的把这个错误的原文翻译了出来。

而在语音渲染方面,Google 翻译输出的语音和单纯的 TTS 语音相比,确实更有节奏感,更像是真人说出来的,但依旧能听出这是 AI 合成语音。

相比之下,Apple 翻译的问题就大得多了:识别出现大量错误,翻译几乎不可用。

有道的同传效果反而更稳定,只出现了一处连读遗漏(「I ’ ll have」变成了「I have」)和一处识别错误(「Soda」变成了「Soup」),翻译质量和速度也同样稳定。

另外,Google 翻译这个「实时听」模式还有一个很奇怪的地方:不知道出于什么原因,Google 翻译不会保存「实时听」的翻译记录:

除了「实时听」,Google 翻译还有「对话」「文本」等多种翻译模式,后者在翻译结束后都能从历史纪录里看到原文与翻译的文本。但「实时听」模式下的翻译记录在退出该模式(耳机断开导致的强制退出也算)后全部消失。

如果你打算用 Google 翻译的「实时听」模式做采访记录,那雷科技劝你还是放弃这个想法。

另外,在体验中雷科技还发现 Google 翻译的「实时听」模式依旧存在错译和主语混乱的情况。但从好的方面想,即使是真人翻译也难免会出现错译、漏译的情况,而 Google 翻译这类翻译软件能以更快的速度迭代技术、查漏补缺。

更重要的是,作为全球通用翻译赛道的代表,Google 翻译加入 AI 阵营,必将推动整个通用翻译赛道朝着 AI 翻译转型。

其实把 Google 翻译这次更新单独拿出来看,雷科技认为这只能算得上是一次「AI 功能补课」:别人都在接大模型,Google 翻译当然也要接。但如果把视角放到 2026 年整个 AI 硬件市场,雷科技反而觉得翻译可能是今年最值得关注的 AI 落地场景之一。

原因也不复杂:和很多还停留在「炫技」阶段的 AI 功能相比,「翻译」的需求足够明确,也足够高频。不同于需要「教育用户」「创造需求」的品类,品牌不需要解释「加 AI 能干什么」,用户也不会质疑「为什么要用 AI」。

比如时空壶此前推出的 X1 Meeting AI 会议同传设备,就利用时空壶的 AI 模型能力,解决了同传过程中断句点识别、语义推测、上下文纠错的传统短板。在「翻译」之外,时空壶也用 AI 技术打造了骨声纹识别功能,让翻译耳机可以准确识别哪句话是从谁嘴里说出来的,为后面的同传翻译环节打下基础。

讯飞刚发布的 AI 眼镜则是另一条路线。自诞生以来,主流智能眼镜都围绕「拍摄」这一核心场景来打造产品。但上个月发布的讯飞 AI 眼睛别出心裁地将「全场景翻译」定为 AI 眼镜的核心。

以翻译替代拍摄,这不仅用更高频的场景解决了智能眼镜「吃灰」的问题,也充分发挥了讯飞自己的优势,借助讯飞在翻译领域多年的技术积累,以最快的速度让讯飞 AI 眼镜在智能眼镜赛道立足。

而在雷科技看来,无论时空壶同传耳机,还是讯飞 AI 眼镜,这些 AI 翻译设备本质上都在试图让翻译从一个 App 功能,变成一种可以「移植」到不同硬件中的能力,从而覆盖更多的场景。

以 Google 翻译为例,虽然现阶段的 Google 翻译还面临延迟、漏译、记录缺失等问题;但长远来看,Gemini 3.5 LT 的实时音频能力完全可以接入耳机、眼镜、会议设备,甚至汽车座舱当中。

对时空壶、讯飞这类专业翻译硬件厂商来说,Gemini 3.5 LT 的出现既是压力,也是机会。「压力」很好理解:Google 这样的玩家一旦下场,必然会抬高用户对免费翻译工具的预期——去年各手机品牌先后为 TWS 耳机加入 AI 翻译功能,就直接挤压来入门翻译耳机的市场空间,拉高了翻译耳机能力的「及格线」。

图片来源:京东

但从另一个角度想,通用翻译也有着天然的短板:商务会议需要多人识别,采访需要留备份,跨境展会需要长时间续航,嘈杂环境需要更强收音,这些都不是单靠一个模型更新就能解决的。

也正因如此,Google 翻译变强并不意味着翻译耳机、翻译眼镜的故事就此结束。

Google 翻译等通用翻译 App 和采用通用翻译模型的产品,只能解决「从无到有」的问题。而未来的高端翻译耳机,必将把专用 AI 能力当作产品迭代的核心驱动力,用更快、更强的专用翻译模型拉出体检的差距。也只有这样,才能在 AirPods 等「AI 翻译耳机」带来的冲击下守住核心用户群,并在更细分、更高价值的市场中延续优势。

随着免费 App 把基础翻译门槛越拉越低,专业设备就必须在专业场景中证明自己的实力和价值。可以肯定的是,随着 AI 技术在翻译赛道的普及,翻译硬件也必将迎来新一轮的洗牌。

技术迎来革新、产品优胜劣汰、消费者体验升级,这才是 AI 技术推动行业发展的意义。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论