极客公园 4小时前
AI 语音输入法,正在偷偷挤走「键盘」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

键盘不会立刻消失,但在越来越多的场景里,它已经悄悄退成语音之后的「编辑器」。

作者|汤一涛

编辑|靖宇

如果几年前有人跟我说,「你以后写稿可能不怎么需要键盘了」,我大概会把这句话当成一句玩笑。那时候我正处在对机械键盘的迷恋期,研究轴体、键帽、键程,购入过 Cherry、Filco、NiZ、Keychron、3D 打印分体式键盘。甚至为了提高打字效率,专门学习过双拼输入法

我的注意力都放在消费的快感上,很少认真想过这样一个问题:

敲键盘,真的是输入的最优解吗?

真正的转折,其实发生在我开始高频使用各种 AI App 的这两年。

第一次真正觉得「语音输入这件事好像值得重视」,是各个 AI App 里那个「语音转文字」按钮变得越来越好用的时候。这些 App 里的语音转写,明显比传统输入法里的语音要聪明得多:它不仅能听清我在说什么,还能自动加上标点,帮我把一些口语化的表达整理得比较书面,甚至在我说得磕磕绊绊的时候,最后呈现出来的那一段文字读起来仍然是顺的。

主流的 AI 几乎都覆盖了语音转文字功能|图片来源:极客公园

更关键的是,它和后面的 AI 是连在一起的——我说完一句话,看到的不只是干巴巴的转写结果,而是 AI 根据这段话给我的反馈和回答。那一刻我第一次有了一个直观的感受:语音不再只是一个「替代键盘的输入方式」,而是直接接在 AI 交互前面的那一层

第二个真正改变我看法的,是我在和 AI 打交道的过程中,越来越清楚地意识到:语音比打字流畅得多。

和真人聊天不同,和 AI 交互时,我可以不管错别字、不管格式;也不需要一上来就组织成一段「体面」的文字;甚至可以中途换一个角度,AI 依然能跟得上。

持续一段时间之后,我发现一个很直观的变化:在越来越多的场景里,我不再想「敲一段字问它」,而是更想「按住麦克风直接说」。

01

Typeless 初体验:,

它真的听得懂我在说什么

我开始尝试一些语音输入法。

Wispr 算是其中名气最大的一个,但真正用下来,其实很难令人满意。它的转录速度略显拖沓,会有一个较为尴尬的等待时间;中文识别的准确率也算不上理想,尤其是遇到一些专有名词或者中英文混排的场景,经常需要手动修补。

闪电说(原名:代体)走的是本地小模型路线,它几乎把「速度」做到了极致,转写过程几乎是「你刚说完,字就出来了」,而且完全免费。这种即时反馈在一开始确实给人非常强烈的爽感,第一次有了「手跟上脑子」的感觉。

但是也因为本地小模型的原因,它在准确率上就差强人意了。比如中英文混排、技术名词夹杂口语、或者我说话节奏稍微快一点的时候,错误率会明显上升。

我还尝试过一些其他的语音输入法,包括豆包输入法(iOS 端)、微信输入法、Whisper Keyboard,甚至是苹果听写(因为更原生),但它们或多或少都因为一些问题而无法让人完全满意。

最后,我就注意到了 Typeless,并且最终常驻在了我的电脑中

我之前曾经简单测试过各个语音输入法,并做了一张四象限图。Typeless 处于第二象限:速度中上,但文字的质量最高。|图片来源:极客公园

如果和之前试过的那些工具相比,Typeless 带来的改变并不在于「速度快了一两秒」,而是在于它大幅降低了出错和返工的成本

很多语音输入法的问题根本不在于转录的速度,而是它无法正确识别说话人的意图,只要一两个词识别错了,你就不得不打断思路,回到文字里一点一点修改,整段体验非常脆弱。

Typeless 给我的感觉刚好相反:它似乎真的理解「你想说什么」,而不是「你每个字到底是怎么说的」。哪怕我中途改口、补充、打断自己,它也会尽量在结果里帮我拼出一个完整的、读起来顺畅的版本。

最直观的改变是:我不需要再刻意凑近话筒了。为了更顺畅地和 AI 交互,我之前特地买了一个麦克风放在显示器左侧。因为输入法经常识别不准,我总怀疑是不是距离太远,于是下意识地把头歪向麦克风。

但现在,这种习惯已经自然消失了。

为了不遮挡屏幕,麦克风位于屏幕左侧,因此距离会稍远一些。

这些「理解意图」的能力,在具体功能上体现得很直观。比如说,我随口一句「My shopping list, bananas, oat milk, dark chocolate」,在 Typeless 里看到的,不是一串用逗号隔开的原话,而是自动帮我排好的一份购物清单:前面有标题,下面是 1、2、3 的编号列表。

Typeless 可以把语音转换成带格式的文字|图片来源:极客公园

又比如,我在 Gmail 里选中一段略显随意的英文邮件,只需要对着 Typeless 说一句「Turn it into a professional email」,它会在原地把那段话改写成一封语气、结构都更正式的邮件正文。

Typeless 可以把文字重写成邮件格式

再比如,我复制了一段日文介绍到屏幕下半部分,对着 Typeless 说「翻译成中文」,它会在几秒钟之内给出一段顺滑自然的译文——不是逐字直译,而是能读得进去的那种中文。

Typeless 可以翻译选中的文字

更有意思的一点,是它会根据你当前使用的 App 自动调整语气。如果我在聊天软件里,对它说话可以非常随意,出来的结果也会刻意保留这种口语感;但在工作场景 App 里,Typeless 给出来的文字就会明显正式很多,标点更规整。

根据不同 App 的上下文语境,Typeless 会调整说话的语气

如果站在技术路线的角度看,这个转变背后其实是从传统 ASR 到大语言模型的变化。过去的语音输入,核心任务是识别——把声音转成文字,最好一个字不差。

而现在,大模型可以在同一个流程里同时做识别和理解:它不只在「听你说什么」,更在「猜你想表达什么」。实际的直观感受就是:以前我说话的时候要照顾机器,现在更多是机器在试图适应我的表达习惯。我会明显感觉到,Typeless 并不是简单地把我的每一句话「抄」下来,而是连着前后的上下文,一起去判断这段话应该长成什么样。

正因为有这一层模型能力和「语气感知」的变化,Typeless 在我的日常工作流程里,很快就从「可以试一试的新玩具」,变成了一个真正可以排在键盘旁边的位置。

以前我总觉得自己是在「用语音替代打字」,现在回过头来看,这种替代关系反而调转过来了:键盘更像是一个用来收尾和微调的工具,而大段的内容输入,已经可以放心交给语音和 Typeless

02

几乎没有「缺点」,

但有三点担忧

如果单纯从「工具好不好用」这个角度来评价,Typeless 在我这儿其实很难挑出什么硬伤。识别足够稳,意图理解在绝大多数场景下靠谱,桌面端集成顺滑,免费额度对个人用户来说也够用(每周 4000 词)。

在使用 Typeless 的 20 天中,我总共输入了接近 8000 词,平均每天 200 词

真正令人担心的地方,反而不在产品本身,而在它所处的环境。

第一个担忧是大公司的入场。当你把 Typeless 当成日常工作的核心输入层时,很难不去想象另外一种可能性:如果哪一天,操作系统自己提供了一套同样水准、甚至更强的语音输入能力,而且是系统级的、无处不在的,那我还有多少理由坚持使用一个第三方工具?

从历史上看,很多优秀的第三方工具,最终都被系统抄到一个「八十分好用」的程度,然后慢慢失去了存在感。语音输入这件事,也很有可能走到同样的节点。例如字节跳动就推出了体验非常优秀的豆包输入法,加之最近讨论很热烈的豆包手机,这种情况是很有可能在不久的将来发生

第二个担忧是免费本地模型阵营的持续挤压。闪电说这样的工具,哪怕今天体验不算完美,但它不断提醒用户一件事:语音识别其实可以在本地设备上完成,而且零成本。随着硬件继续演进、本地模型持续变强,这一阵营的体验只会越来越好,用户对「语音转文字这件事本身应该是免费的」这种预期,很难完全逆转

Typeless 目前用更高的免费额度和更好的整体体验,在一定程度上对冲了这种心理落差,但长远来看,它仍然要回答一个问题:在一个「到处都是不错的免费方案」的世界里,它能一直给用户什么额外的价值,让那 12 美元每个月看起来是值得的。

Typeless 的付费套餐为每月 12 美元,提供无限次的转录|图片来源:Typeless 官网

第三个不算「担忧」,更像是现实的约束,就是 iOS 端的体验。因为 iOS 的系统限制,使用 Typeless 必须跳转 App,这在使用体验上是非常致命的打击。Typeless 想出的应对方案是让麦克风在后台常驻,但这同时又会带来隐私和功耗的问题。

这些问题不是 Typeless 一家可以独自解决的,它需要的是操作系统本身的配合。而这又回到了第一个问题:一旦像苹果这种系统级别的厂商跟进,打击将是致命的。

03

键盘,会被取代到什么程度

回头看这几年自己折腾输入工具的历程,我越来越强烈地意识到一个事实:我们过去为键盘付出的那些努力,很大一部分是在帮一套并不那么「顺手」的设计擦屁股。

QWERTY 布局本身并不是为了人体工学而生,它诞生于机械打字机时代,核心目的是降低卡纸、让金属字杆别那么容易打结。为了照顾机器,我们刻意牺牲了一部分人的效率,然后再用盲打训练、打字课和大量练习,把这种妥协牢牢刻进自己的肌肉记忆里。

最开始的打字机并不是 QWERTY 布局。1873 年,美国人 Christopher Sholes,将常用的字母组合分开排列,降低打字速度,以解决因按键复位机制缓慢而导致的打字卡顿问题,最终形成了 QWERTY 布局|图片来源:Wikipedia

机械键盘、分体式键盘、各种人体工学键盘,本质上都还停留在这种框架之内:我们在既定的格子里,想办法让手指跑得没那么累。

语音则完全是另外一条路。说话这件事,本来就是人类最自然的输出方式之一。我们从小就学会用声音组织情绪和思想,所有的停顿、转折、插话、反悔,都是在这种流动里长出来的。

真正开始高频用语音和 AI 交互之后,我才发现,所谓「自然输入方式」不只是速度快一点,而是它把我从很多不必要的负担里解放了出来:不用在意是不是每个字都敲对,不用提前把句子构造好,不用为了照顾输入法刻意改变自己的表达习惯。我可以像和人说话一样把一件事情讲清楚,剩下的交给模型去理解、去整理

Typeless 这一类软件,站在这个趋势上做了一步更激进的尝试。它并不满足于当一个「语音版键盘」,而是很明显地在向系统级能力靠拢:在桌面端,它试图成为一层独立于具体 App 之上的输入层;在 iOS 端,它干脆取消了键盘,把「说话」设定为默认动作。

在 iOS 端,Typeless 做得非常激进,直接取消了键盘输入,仅保留语音输入|图片来源:极客公园

这种野心让我看到了一些想象空间:如果有一天,操作系统层真的接受了「语音优先」的前提,把类似 Typeless 的能力直接做进系统,也许我们今天习惯的很多交互细节都会被改写。

当然,这一切目前都还停留在可能性层面。大公司会不会愿意把这件事做到极致,用户会不会接受一套以语音为主的新习惯,监管和隐私会怎么演化,这些问题谁都说不准。

对我来说,唯一可以确认的,是它已经在「输入效率」这个非常具体的指标上,给出了一个足够有说服力的答案:在很多场景里,我可以用更短的时间,把更多的信息、更完整的语义输入到电脑里,而且中间少了很多和键盘搏斗的环节

哪怕最终 Typeless 没能长成一个真正的「系统级存在」,这部分被释放出来的效率和注意力,大概也已经足够说明一件事——输入方式这件事,我们完全有理由重新想象。

* 头图来源:oz.Typewriter

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 AI 语音输入法比

键盘输入更高效吗?

热点视频

谷歌逼出极限操作?OpenAI 首席研究官爆料,奥尔特曼多次拉响红色警报

点赞关注极客公园视频号,

观看更多精彩视频

更多阅读

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 输入法 机械键盘 极客公园
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论