AI 语音输入法，正在偷偷挤走「键盘」

键盘不会立刻消失，但在越来越多的场景里，它已经悄悄退成语音之后的「编辑器」。

作者｜汤一涛

编辑｜靖宇

如果几年前有人跟我说，「你以后写稿可能不怎么需要键盘了」，我大概会把这句话当成一句玩笑。那时候我正处在对机械键盘的迷恋期，研究轴体、键帽、键程，购入过 Cherry、Filco、NiZ、Keychron、3D 打印分体式键盘。甚至为了提高打字效率，专门学习过双拼输入法。

我的注意力都放在消费的快感上，很少认真想过这样一个问题：

敲键盘，真的是输入的最优解吗？

真正的转折，其实发生在我开始高频使用各种 AI App 的这两年。

第一次真正觉得「语音输入这件事好像值得重视」，是各个 AI App 里那个「语音转文字」按钮变得越来越好用的时候。这些 App 里的语音转写，明显比传统输入法里的语音要聪明得多：它不仅能听清我在说什么，还能自动加上标点，帮我把一些口语化的表达整理得比较书面，甚至在我说得磕磕绊绊的时候，最后呈现出来的那一段文字读起来仍然是顺的。

主流的 AI 几乎都覆盖了语音转文字功能｜图片来源：极客公园

更关键的是，它和后面的 AI 是连在一起的——我说完一句话，看到的不只是干巴巴的转写结果，而是 AI 根据这段话给我的反馈和回答。那一刻我第一次有了一个直观的感受：语音不再只是一个「替代键盘的输入方式」，而是直接接在 AI 交互前面的那一层。

第二个真正改变我看法的，是我在和 AI 打交道的过程中，越来越清楚地意识到：语音比打字流畅得多。

和真人聊天不同，和 AI 交互时，我可以不管错别字、不管格式；也不需要一上来就组织成一段「体面」的文字；甚至可以中途换一个角度，AI 依然能跟得上。

持续一段时间之后，我发现一个很直观的变化：在越来越多的场景里，我不再想「敲一段字问它」，而是更想「按住麦克风直接说」。

Typeless 初体验：，

它真的听得懂我在说什么

我开始尝试一些语音输入法。

Wispr 算是其中名气最大的一个，但真正用下来，其实很难令人满意。它的转录速度略显拖沓，会有一个较为尴尬的等待时间；中文识别的准确率也算不上理想，尤其是遇到一些专有名词或者中英文混排的场景，经常需要手动修补。

闪电说（原名：代体）走的是本地小模型路线，它几乎把「速度」做到了极致，转写过程几乎是「你刚说完，字就出来了」，而且完全免费。这种即时反馈在一开始确实给人非常强烈的爽感，第一次有了「手跟上脑子」的感觉。

但是也因为本地小模型的原因，它在准确率上就差强人意了。比如中英文混排、技术名词夹杂口语、或者我说话节奏稍微快一点的时候，错误率会明显上升。

我还尝试过一些其他的语音输入法，包括豆包输入法（iOS 端）、微信输入法、Whisper Keyboard，甚至是苹果听写（因为更原生），但它们或多或少都因为一些问题而无法让人完全满意。

最后，我就注意到了 Typeless，并且最终常驻在了我的电脑中。

我之前曾经简单测试过各个语音输入法，并做了一张四象限图。Typeless 处于第二象限：速度中上，但文字的质量最高。｜图片来源：极客公园

如果和之前试过的那些工具相比，Typeless 带来的改变并不在于「速度快了一两秒」，而是在于它大幅降低了出错和返工的成本。

很多语音输入法的问题根本不在于转录的速度，而是它无法正确识别说话人的意图，只要一两个词识别错了，你就不得不打断思路，回到文字里一点一点修改，整段体验非常脆弱。

Typeless 给我的感觉刚好相反：它似乎真的理解「你想说什么」，而不是「你每个字到底是怎么说的」。哪怕我中途改口、补充、打断自己，它也会尽量在结果里帮我拼出一个完整的、读起来顺畅的版本。

最直观的改变是：我不需要再刻意凑近话筒了。为了更顺畅地和 AI 交互，我之前特地买了一个麦克风放在显示器左侧。因为输入法经常识别不准，我总怀疑是不是距离太远，于是下意识地把头歪向麦克风。

但现在，这种习惯已经自然消失了。

为了不遮挡屏幕，麦克风位于屏幕左侧，因此距离会稍远一些。

这些「理解意图」的能力，在具体功能上体现得很直观。比如说，我随口一句「My shopping list, bananas, oat milk, dark chocolate」，在 Typeless 里看到的，不是一串用逗号隔开的原话，而是自动帮我排好的一份购物清单：前面有标题，下面是 1、2、3 的编号列表。

Typeless 可以把语音转换成带格式的文字｜图片来源：极客公园

又比如，我在 Gmail 里选中一段略显随意的英文邮件，只需要对着 Typeless 说一句「Turn it into a professional email」，它会在原地把那段话改写成一封语气、结构都更正式的邮件正文。

Typeless 可以把文字重写成邮件格式

再比如，我复制了一段日文介绍到屏幕下半部分，对着 Typeless 说「翻译成中文」，它会在几秒钟之内给出一段顺滑自然的译文——不是逐字直译，而是能读得进去的那种中文。

Typeless 可以翻译选中的文字

更有意思的一点，是它会根据你当前使用的 App 自动调整语气。如果我在聊天软件里，对它说话可以非常随意，出来的结果也会刻意保留这种口语感；但在工作场景 App 里，Typeless 给出来的文字就会明显正式很多，标点更规整。

根据不同 App 的上下文语境，Typeless 会调整说话的语气

如果站在技术路线的角度看，这个转变背后其实是从传统 ASR 到大语言模型的变化。过去的语音输入，核心任务是识别——把声音转成文字，最好一个字不差。

而现在，大模型可以在同一个流程里同时做识别和理解：它不只在「听你说什么」，更在「猜你想表达什么」。实际的直观感受就是：以前我说话的时候要照顾机器，现在更多是机器在试图适应我的表达习惯。我会明显感觉到，Typeless 并不是简单地把我的每一句话「抄」下来，而是连着前后的上下文，一起去判断这段话应该长成什么样。

正因为有这一层模型能力和「语气感知」的变化，Typeless 在我的日常工作流程里，很快就从「可以试一试的新玩具」，变成了一个真正可以排在键盘旁边的位置。

以前我总觉得自己是在「用语音替代打字」，现在回过头来看，这种替代关系反而调转过来了：键盘更像是一个用来收尾和微调的工具，而大段的内容输入，已经可以放心交给语音和 Typeless。

几乎没有「缺点」，

但有三点担忧

如果单纯从「工具好不好用」这个角度来评价，Typeless 在我这儿其实很难挑出什么硬伤。识别足够稳，意图理解在绝大多数场景下靠谱，桌面端集成顺滑，免费额度对个人用户来说也够用（每周 4000 词）。

在使用 Typeless 的 20 天中，我总共输入了接近 8000 词，平均每天 200 词

真正令人担心的地方，反而不在产品本身，而在它所处的环境。

第一个担忧是大公司的入场。当你把 Typeless 当成日常工作的核心输入层时，很难不去想象另外一种可能性：如果哪一天，操作系统自己提供了一套同样水准、甚至更强的语音输入能力，而且是系统级的、无处不在的，那我还有多少理由坚持使用一个第三方工具？

从历史上看，很多优秀的第三方工具，最终都被系统抄到一个「八十分好用」的程度，然后慢慢失去了存在感。语音输入这件事，也很有可能走到同样的节点。例如字节跳动就推出了体验非常优秀的豆包输入法，加之最近讨论很热烈的豆包手机，这种情况是很有可能在不久的将来发生。

第二个担忧是免费本地模型阵营的持续挤压。闪电说这样的工具，哪怕今天体验不算完美，但它不断提醒用户一件事：语音识别其实可以在本地设备上完成，而且零成本。随着硬件继续演进、本地模型持续变强，这一阵营的体验只会越来越好，用户对「语音转文字这件事本身应该是免费的」这种预期，很难完全逆转。

Typeless 目前用更高的免费额度和更好的整体体验，在一定程度上对冲了这种心理落差，但长远来看，它仍然要回答一个问题：在一个「到处都是不错的免费方案」的世界里，它能一直给用户什么额外的价值，让那 12 美元每个月看起来是值得的。

Typeless 的付费套餐为每月 12 美元，提供无限次的转录｜图片来源：Typeless 官网

第三个不算「担忧」，更像是现实的约束，就是 iOS 端的体验。因为 iOS 的系统限制，使用 Typeless 必须跳转 App，这在使用体验上是非常致命的打击。Typeless 想出的应对方案是让麦克风在后台常驻，但这同时又会带来隐私和功耗的问题。

这些问题不是 Typeless 一家可以独自解决的，它需要的是操作系统本身的配合。而这又回到了第一个问题：一旦像苹果这种系统级别的厂商跟进，打击将是致命的。

键盘，会被取代到什么程度

回头看这几年自己折腾输入工具的历程，我越来越强烈地意识到一个事实：我们过去为键盘付出的那些努力，很大一部分是在帮一套并不那么「顺手」的设计擦屁股。

QWERTY 布局本身并不是为了人体工学而生，它诞生于机械打字机时代，核心目的是降低卡纸、让金属字杆别那么容易打结。为了照顾机器，我们刻意牺牲了一部分人的效率，然后再用盲打训练、打字课和大量练习，把这种妥协牢牢刻进自己的肌肉记忆里。

最开始的打字机并不是 QWERTY 布局。1873 年，美国人 Christopher Sholes，将常用的字母组合分开排列，降低打字速度，以解决因按键复位机制缓慢而导致的打字卡顿问题，最终形成了 QWERTY 布局｜图片来源：Wikipedia

机械键盘、分体式键盘、各种人体工学键盘，本质上都还停留在这种框架之内：我们在既定的格子里，想办法让手指跑得没那么累。

语音则完全是另外一条路。说话这件事，本来就是人类最自然的输出方式之一。我们从小就学会用声音组织情绪和思想，所有的停顿、转折、插话、反悔，都是在这种流动里长出来的。

真正开始高频用语音和 AI 交互之后，我才发现，所谓「自然输入方式」不只是速度快一点，而是它把我从很多不必要的负担里解放了出来：不用在意是不是每个字都敲对，不用提前把句子构造好，不用为了照顾输入法刻意改变自己的表达习惯。我可以像和人说话一样把一件事情讲清楚，剩下的交给模型去理解、去整理。

Typeless 这一类软件，站在这个趋势上做了一步更激进的尝试。它并不满足于当一个「语音版键盘」，而是很明显地在向系统级能力靠拢：在桌面端，它试图成为一层独立于具体 App 之上的输入层；在 iOS 端，它干脆取消了键盘，把「说话」设定为默认动作。

在 iOS 端，Typeless 做得非常激进，直接取消了键盘输入，仅保留语音输入｜图片来源：极客公园

这种野心让我看到了一些想象空间：如果有一天，操作系统层真的接受了「语音优先」的前提，把类似 Typeless 的能力直接做进系统，也许我们今天习惯的很多交互细节都会被改写。

当然，这一切目前都还停留在可能性层面。大公司会不会愿意把这件事做到极致，用户会不会接受一套以语音为主的新习惯，监管和隐私会怎么演化，这些问题谁都说不准。

对我来说，唯一可以确认的，是它已经在「输入效率」这个非常具体的指标上，给出了一个足够有说服力的答案：在很多场景里，我可以用更短的时间，把更多的信息、更完整的语义输入到电脑里，而且中间少了很多和键盘搏斗的环节。

哪怕最终 Typeless 没能长成一个真正的「系统级存在」，这部分被释放出来的效率和注意力，大概也已经足够说明一件事——输入方式这件事，我们完全有理由重新想象。

* 头图来源：oz.Typewriter

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你觉得 AI 语音输入法比

键盘输入更高效吗？

热点视频

谷歌逼出极限操作？OpenAI 首席研究官爆料，奥尔特曼多次拉响红色警报

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

宙世代

一起剪

相关标签