智东西 1小时前
今天,用了豆包新品,我想扔掉键盘了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 应用风向标(公众号:ZhidxcomAI)

作者|江宇

编辑|漠影

智东西 5 月 15 日报道,昨日,豆包输入法 macOS 版正式上线,用户终于可以在电脑上直接 " 张嘴打字 " 了。

和传统输入法里的 " 语音转文字 " 功能不同,这次豆包输入法主打的,是一整套 AI 语音输入能力。

其背后采用的是豆包 App 同款语音模型,重点强调 " 边说边出字 "" 中英文混说 "" 智能纠错 " 和 " 长文本输入 " 等能力。

目前,豆包输入法支持在任意对话框中实时语音转文字,且没有时长限制,适合长文案、小说、会议记录等持续输入场景。

同时,它还支持中英文混说、多种方言识别,无需手动切换输入法,可自动识别语言。

在 AI 能力部分,豆包输入法加入了 " 智能纠错 " 和 " 个性化记忆 " 功能,其能够自动修正部分语气词、语病和口误,并逐渐记住用户的改词习惯,让语音输入越用越准。

此外,豆包输入法还支持轻声识别和抗噪能力,在办公室、咖啡店、图书馆等环境中,也能进行低音量输入。交互模式上,则提供 " 长按 " 和 " 免按 " 两种方案。

某种程度上,AI 语音输入正在成为新的输入趋势。过去,语音输入更多还是手机上的 " 临时替代方案 ",但随着 Vibe Coding 等场景越来越普及,很多用户开始长时间 " 和电脑说话 "。

目前,市面上已经出现了微信输入法、智谱 AI 输入法(小凹)以及 Typeless 等 AI 语音输入产品,其中不少已经开始收费。相比之下,豆包输入法目前免费推出,这或许也会成为它吸引用户的一大优势。

那么问题来了:豆包输入法,真的好用吗?

这次,我们从延时、中文准确率、中英文混说、方言识别、智能纠错以及个性化记忆几个维度,对它进行了实测。

一、普通话几乎边说边出,粤语还在等 AI" 补作业 "

语音输入最核心的问题,其实只有一个:跟不跟得上人说话。

在普通话场景下,豆包输入法整体表现还是比较流畅的。无论是短句、长句,还是中英文混说,基本都能做到 " 边说边出字 "。

主观感受下来,它的首字延迟大概会略高于 1 秒,完整句子的生成延迟通常会控制在 1 秒以内。而且在连续长文本输入过程中,它的整体卡顿感并不明显。

但到了方言场景,尤其是粤语等复杂方言,体验就会大不相同。它不像普通话那样一句话刚说完立刻就能识别,反而是 " 先听一遍,再靠 AI 后处理 "。

很多时候,前半句几乎没识别出来,后面才开始通过上下文一点点修正。部分长句甚至会出现超过 5 秒以上的完整句延迟。

原句(粤语):哗,出面做乜突然间落咁大雨嘅?係啰,明明头先仲好地地。死火,我赶住出去呀。不过依家大风大雨,好易湿身㗎。唔使惊!我带咗遮同埋雨褸添。都係你够醒目!

对应普通话:" 哇,外面怎么突然下这么大雨?就是啊,明明刚才还好好的。糟糕了,我赶着要出去呀。蕭汉过现在风大雨大,很容易湿身的。不用怕 ! 我带了伞还有雨衣呢。还是你够聪明 !"

比如在我们的测试中,第一句 " 哇,出面做乜突然间落咁大雨?" 其实被完整识别了出来,准确度是没有问题的。

但到了后半段,识别结果就开始出现较大偏差,大部分内容都没有正确识别出来。

东北话的表现则明显更稳定一些。在我们的测试里,除了 " 旮沓 " 等个别词汇出现问题之外,其余内容大体都能正常识别。

原句(东北话):哎呀妈呀,咱东北这旮沓老好了,那雪下的老大了,跟棉花套子似的。冻梨啃一口,甜滋滋的,拔凉拔凉的。铁锅炖大鹅,那香味老霸道了。

闽南语则基本属于 " 困难模式 "。目前识别效果仍较差,很多句子几乎无法正确转写。

当然,这本身也是整个行业里最难的问题之一。不同方言之间,口音、连读和词汇差异本来就很大。如果你本身会说方言,或许也可以自己试试看,它到底能听懂多少。

二、甄嬛传名场面没翻车,但外国人名还是有点难

中文准确率,是这类产品另一个核心能力。

这次,我们专门选了两个 " 难题 "。

第一个,是《甄嬛传》" 滴血认亲 " 名场面。因为文言式表达、人物称谓、停顿节奏和长句结构,本身都比较复杂,对语音识别其实很不友好。

原话:臣妾要告发熹贵妃私通,混乱后宫,罪不容诛。宫规森严,祺贵人不得信口雌黄。臣妾若有半句虚言,便叫五雷轰顶,永不超生。我还以为是什么毒誓呢,生死之事谁又能知啊?可见祺贵人不是真心的了。臣妾以瓜尔佳氏一族起哲,若有半句虚言全族无后而终。

但实际测试下来,豆包输入法的表现比预期更稳定。它在长文本输出过程中,能够持续进行动态修正。包括人称、断句、标点,甚至部分误读内容,都会在后续识别过程中不断调整。

最终结果里,文言表达、标点符号和整体句意没有错误。这种 " 边识别边回改 " 的机制,近乎可以看成 AI 写作过程中的实时润色。

第二个测试,则是科技新闻场景。我们读了一段关于 " 马斯克诉奥尔特曼案第三周庭审 " 的内容,重点测试它对外国人名的识别能力。

这一部分难度更高。因为很多英文人名本身就存在多种中文译法,而且中文互联网里也没有统一标准。

原话:马斯克诉奥尔特曼案进入第三周,被告方关键证人相继出庭,微软 CEO 萨提亚 · 纳德拉、OpenAI 联合创始人兼前首席科学家伊利亚 · 苏茨克维,以及 OpenAI 基金会董事会主席布雷特 · 泰勒作证。此前在第二周庭审中,马斯克方主导举证,OpenAI 前 CTO 米拉 · 穆拉蒂、前董事海伦 · 托纳、塔莎 · 麦考利、前员工罗茜 · 坎贝尔,以及非营利治理专家戴维 · 希泽等证人的证词和庭审材料陆续浮出。

实际结果里,部分名字能够正确识别,但也出现了译名不统一的问题。比如 " 戴维 · 希泽(David Schizer)" 并没有被识别成常见译名,部分外国人名中间的分隔点 " · " 也出现缺失。

日常聊天问题不大,但如果是新闻写作、法律文件或正式场景,后续还是需要人工再核对一遍。

三、中英文混说准确率很高," 外企黑话 " 也能听懂

如果说方言是困难模式,那中英文混说,则是豆包输入法目前完成度较高的一部分。

无论是人名、英文缩写,还是各种办公场景的常用语,它都能较稳定地识别出来。而且,它对于中英文切换时的断句和标点处理,也比传统输入法自然很多。

原句:Jennifer,晚上跟 Global 的会议改到明天早晨 7 点,你记得 reschedule 一下。还有换个大点的 meeting room,因为 FinanceEric and HR 的 Susie 也要参加,还有提前把要讲的 topic 再 go through 一遍。辛苦跟 Laura 说下,会上帮忙记下 meeting minutes。so far 我就想起这么多,如果有新的 update 我再跟你 sync。

很多时候,用户输出并不需要刻意放慢语速。整体主观感受下来,中英文混说场景的准确率,大概率已经可以稳定达到 95% 以上。

对于外企办公的人来说,这部分功能其实是比较实用的。

四、能清理语气词,但暂时还不会 " 主动润色 "

相比识别能力," 智能纠错 " 其实是这次最让人期待的功能之一。它涉及一个问题:AI 到底应该 " 忠实记录 ",还是主动让 AI 帮你改。

从实际测试来看,豆包输入法目前整体偏向前者。比如一些简单语气词,像 " 嗯 " 和 " 呃 " 之类,它确实可以自动清理。

但更复杂的口语化重复、逻辑跳跃或者临时改句,它目前还不会主动帮你重写。

例如们在测试时说:" 我想 11 点 …… 不对,是 11 点半,请李铭喝咖啡。"

最终输出里,"11 点 " 并不会被自动删掉,而是完整保留了用户原本的修改过程。

包括一些讲话过程中不断反复修改句子的情况,它也不会主动整理成更通顺的书面语言,尽量保留原话。

目前,市面上一些 AI 语音输入产品,如 Typeless 和智谱 AI 输入法(小凹),已经开始覆盖 " 自动润色 "" 自动改写 " 等功能。它们会主动删除废话、重组句子,直接帮用户优化表达。

相比之下,豆包输入法当前的策略会更保守一些,强调对原始表达的保留。

五、改错一次之后,它就会记住你的写法

个性化改词,是这次体验里最实用的功能之一。

比如在人名场景里,语音识别经常会遇到同音字问题。

第一次输入时,系统可能会给出错误写法。这时候,用户只需要手动修改一次。等到第二次再语音输入同样的人名时,豆包就会优先采用用户之前修改后的版本。

长期使用后,这种 " 记忆 " 也是是明显感知到的。除了人名之外,一些公司名、产品名或者固定术语,也存在类似情况。这类高频专有名词,其实是很多人日常语音输入里最容易反复修改的部分。

结语:不需要键盘了?或许我们更需要一个麦克风

相比键盘输入,语音输入最大的优势,其实一直都是 " 更快 "。

而在 AI 能力加入之后,语音输入也不再只是简单 " 转文字 " 了。实时修正、自动断句、上下文记忆,以及更高的识别准确率,都开始让它变得更实用。

与此同时,语音输入的使用场景也在扩大。

过去,很多人只会在开车、走路时偶尔使用语音输入。但现在,随着轻声识别、抗噪等能力出现,办公室、咖啡店、图书馆等环境,也开始能够正常使用。

某种程度上,AI 语音输入法正在重新改变人与电脑的输入方式。或许未来很多人想打字,第一反应不是找键盘,而是先找麦克风。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

输入法 ai 微信 macos
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论