经济观察报 2小时前
越来越多打工人对着电脑“嘀嘀咕咕”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

过去二十年来,语音输入一直是输入法中一个不太好用的附属功能,现在,AI 大模型正在把它变成一种新潮的办公方式。

作者:郑晨烨
封图:图虫创意

淘宝上最近流行起了一种键盘产品,但它只有 4 个按键、1 个拨杆和 1 个麦克风接口,没有字母键,不能打字,售价 269 元起,搭配大疆麦克风的版本售价 400 多元。这个产品叫 AhaKey-X1,由南京锦心湾科技有限责任公司(下称 AhaKey)开发,今年春节前后才上线。

它的用途很简单:方便用户对 AI 说话。

用户只需按下语音键,对着麦克风口述工作指令,AI 将语音转成文字后发送给 Claude、ChatGPT、DeepSeek、Cursor 等 AI 工具执行。不管是写代码、改方案还是整理会议纪要,用户都不需要打字,说出来就行,AI 会自动把口语化的表达整理成结构化的文本。

AhaKey 联合创始人兼 CTO 张心阳告诉经济观察报记者,自产品上线以来,每月销量翻倍增长,"6・18" 期间公司备货量已近 1000 台,目前正和多家产业资本及投资机构接洽融资。

一个没有字母键的键盘能卖得好,是因为越来越多的人开始用语音代替打字对 AI 下达工作指令。这种办公方式最早在程序员中流行,他们用语音向 AI 描述需求,AI 生成代码。但现在,产品经理、律师、内容创作者也开始这样做。

张心阳告诉经济观察报记者,有一个令他印象很深的用户,是一个 40 多岁的律师," 他连 Windows 电脑用得都不是特别顺 ",但买了 AhaKey 之后,不需要打字就能和 AI 对话完成工作。张心阳说,这让他和团队意识到,AI 时代的语音办公需求可能远比他们预想的要大。

实际上,语音输入并不是什么很新鲜的玩意儿。早在 1997 年,IBM 就推出了商用中文语音识别系统 ViaVoice,标称最高识别率 95%,预装在当时的主流 PC 上。此后近三十年,科大讯飞、搜狗、百度等公司在语音输入领域持续投入,产品从 PC 端延伸到手机端,但语音始终没有成为主流的输入交互方式。

张心阳认为,变化发生在 AI 大模型成熟之后。" 过去语音输入解决的是转文字的问题,没有解决理解语言的问题。" 他说,过去的语音输入法是把你说的话逐字记录下来,错一个字就得手动改,输出的文字是口语态的,人读起来费劲,但 AI 大模型改变了接收端,哪怕你说得断断续续,夹着口误,AI 依然能理解你的意思,再输出一段通顺的文字。

或者说,当语音输入的接收方从人变成 AI,对识别准确率的要求大幅降低,语音办公才真正可以实现。

根据经济观察报记者的不完全统计,截至 2026 年第一季度末,全球语音 AI 方向的初创公司融资总额已超过 70 亿美元。

目前,海外语音听写应用 Wispr 正在进行新一轮融资,目标估值接近 20 亿美元,而在半年前这个数字还是 7 亿美元;5 月 12 日,Google 把 AI 听写功能 Rambler 内置进默认键盘 Gboard,覆盖数亿台 Android 手机,免费使用;国内,5 月 7 日,阿里千问在 PC 端上线 AI 语音输入功能;5 月 28 日,科大讯飞(002230.SZ)发布 AI 眼镜,其搭载的智能体可以将口语化表达自动整理成结构化文本。

过去二十年来,语音输入一直是输入法中一个不太好用的附属功能,现在,AI 大模型正在把它变成一种新潮的办公方式。

"AI 感受不到痛苦 "

即便如今各类语音输入工具的识别准确率已经很高,同声传译、多语种翻译等功能也陆续上线,但语音输入始终没有成为一种主流的交互方式。大多数人在线上交流、办公或日常交互时仍然选择打字,问题显然不在识别准确率上。

科大讯飞穿戴设备业务部总经理林会杰在接受经济观察报记者采访时提到,传统语音输入有一个明显的问题——语音转写完成后," 你是没有办法直接发过去的,因为别人一看就知道,你这就是语音打字出来的,观感不好,虽然说方便了你自己,但是痛苦了别人 "。

中文语速通常是打字速度的三倍左右,速度优势明确,但 " 快 " 只解决了发送端的效率。一段口语化的文字,夹着语气词、重复和跳跃的逻辑,对读的人来说是负担。比如,微信里收到 60 秒语音消息会让人头疼,原因也在这里——说的人痛快,听的人痛苦。

这是传统语音输入法面对的一个共同问题:哪怕识别准确率做到了 99%,输出的文字依然是口语态的,没有标点,没有段落,时常也会夹着 " 嗯 "" 啊 " 或半句废话,人读起来费劲。

但 AI 感受不到这种痛苦——对人来说难以忍受的口语化文字,对 AI 来说没有任何理解障碍,人说得再乱再碎,它都能从中提取意图。语音输入 " 方便了自己,痛苦了别人 " 的问题,在接收方变成 AI 的那一刻起就消失了。

于是,语音办公在两类场景中快速铺开。第一类场景是,用户对着 Claude、DeepSeek 或 ChatGPT 说话下达指令,AI 直接理解意图并执行任务,整个过程不需要产出一段通顺的文字给人看。这是语音输入在过去几十年都没有遇到过的局面:当接收方从人变成 AI,对语言表达的规范性要求大幅度下降。

用张心阳的话说就是," 理解意图比逐字准确更重要 "。

程序员是最早大规模进入这个模式的群体。OpenAI 联合创始人 Andrej Karpathy 在 2025 年 2 月公开提出 "vibe coding"(氛围编程)的概念——开发者用自然语言描述需求,AI 生成代码,开发者审核和修改。Karpathy 当时就提到,他使用语音听写工具 SuperWhisper 向 AI 口述编程指令。到了 2025 年 12 月,Karpathy 已经完全停止打字写代码,100% 依赖语音输入。

2026 年 2 月底至 3 月初,OpenAI 旗下的编程智能体 Codex 和 Anthropic 旗下的编程智能体 Claude Code 在相隔不到一周的时间里先后上线原生语音模式,开发者按住空格键说话,AI 就能接收编程指令。

AhaKey-X1 就是为这个工作流设计的。张心阳说,用 Claude Code 等 AI 编程工具时,AI 会频繁要求用户批准操作,拨杆推上去是自动批准,拨下来是逐一确认," 像自动挡一样,所有需要批准的就自动批准掉了 "。4 个按键中的 3 个按键分别对应说话、确认、拒绝,第 4 个键留给用户自定义。

据张心阳介绍,团队最初自己在用 AI 办公时发现一个问题:正襟危坐在电脑前打字,有时候反而限制想法," 很多点子是灵光一现出来的,可能是在你躺在书房沙发上的时候 "。那么,既然和 AI 交流已经变成说话了,为什么一定要坐在电脑前?

于是,他们先做了一个开源项目放在开源社区 GitHub 上,有人看到后就来买元器件和套件,再后来就有人希望直接收到组装好的成品。" 是用户推着我们往前走的。" 张心阳说。在小红书上,也已经有不少用户自己花 69 元钱买三键小键盘、配一个麦克风,手搓出类似的设备。

语音办公快速铺开的第二类场景是,即便最终还是需要产出文字给人看,AI 也在语音转写之后增加了一层语义处理:自动删除语气词,修正语法,理顺逻辑,调整句式,输出一段可以直接使用的通顺文字。这个过程造成的延迟通常只有一两秒钟。

" 哪怕你前面说的内容有错误,后面又纠正过来了,AI 都可以帮你完整梳理出来,形成一个有效的文案内容。" 林会杰这样告诉记者。这也意味着,过去的语音输入需要极高的识别准确率才勉强可用,现在的语音输入即便准确率一般,大模型凭借理解能力也能输出比逐字转写更好的结果。

事实上,过去两年,一批围绕 AI 语音听写的创业公司在快速成长,其中估值最高的是位于美国旧金山的 Wispr 公司。这家公司 2021 年成立,最初做脑机接口腕带(用于无声语音输入),2024 年年中转型做语音听写软件。

公开信息显示,截至 2026 年初,Wispr 累计完成约 8100 万美元融资。根据 Wispr 披露的数据,持续使用产品超过 6 个月的用户,日常输入中 72% 的字符通过语音而非键盘完成;产品上线至今,用户规模同比增长超过 100 倍,使用满 12 个月的用户中有 70% 仍在活跃使用。

2025 年 9 月,LinkedIn 联合创始人 Reid Hoffman 在社交媒体上宣称自己被 "voicepilled"(语音觉醒),称这是 " 一种全新的能力放大方式 "。

截至 2026 年 5 月,Wispr 的目标估值已接近 20 亿美元,半年内上涨了近三倍。一个听写应用估值 20 亿美元,资本市场显然在押注语音替代一部分键盘输入的场景。

讯飞输入法也在跟进这个方向。2025 年底,讯飞输入法在键盘界面新增了一个 AI 键,用户长按该键即可用语音直接向 AI 下达指令,不需要切换到其他应用。科大讯飞 2025 年年报披露,讯飞输入法大模型服务用户渗透率提升 900%,输入效率提升 77%。

这或许可以说明,语音办公的需求正在从极客圈向更广泛的职场人群渗透。

" 悄悄说话!"

语音办公的速度优势很明确,但办公不只是追求速度。写一封措辞谨慎的邮件、改一段逻辑复杂的代码、打磨一份给客户的方案,这些场景需要的是精确控制,而不是快速表达。能不能覆盖这些场景,是语音办公能走多远的关键问题之一。

经济观察报记者在采访中问张心阳:有人认为用键盘打出来的提示词更有条理,打字过程本身会帮你整理思路,语音输入能取代这个过程吗?对此,张心阳的回答是," 打字的价值永远存在 "。

他把两者分得很清楚:语音在表达那一侧,键盘在整理那一侧," 你要修改某个东西的时候,思考过程本身对你是有价值的 "。语音解决的是把想法快速 " 倒 " 出来,编辑和深度思考仍然需要键盘。

张心阳还提到一个变化:两年前," 提示词工程师 " 是热门招聘岗位,用户需要精心设计输入格式才能让 AI 给出满意的结果。但现在,这个岗位基本消失了,AI 自己就能把零散的口语化输入进行结构化、拆解、调度," 纯从效果方面看,已经不需要人再去编辑打字了 "。

AI 对输入格式的容忍度越来越高,用什么方式给 AI 下指令变得越来越不重要。在这个前提下,速度最快、认知负担最低的输入方式自然会胜出,而且说话时不需要把想法先翻译成书面语。或者说,AI 对自然语言的理解能力到了今天这个水平,以语音为核心交互方式的办公产品第一次具备了成立的条件。

但实际上,用语音操作电脑的想法比 AI 大模型出现得更早。

2018 年 5 月 15 日,锤子科技在北京鸟巢举办发布会,创始人罗永浩彼时在台上演示了坚果 TNT 工作站。TNT 全称 Touch and Talk,主打语音加触控操作桌面电脑,用户对着屏幕说话就能完成搜索、编辑文档、发送邮件等操作。这样一个被锤子科技定义为跨时代的产品,却在发布会后被大范围嘲讽,网友调侃的 " 安静!你吵到我用 TNT 了!" 一度成为彼时互联网流传甚广的 " 名梗 "。

网友们嘲讽 TNT 的核心原因是罗永浩在现场演示的语音交互体验不好。2018 年的语音识别技术虽然已经能做到较高的准确率,但没有大模型理解意图,每一个识别错误都是一个需要用户手动纠正的摩擦点——用户必须说得字正腔圆、逻辑清晰,机器才能给出正确响应,稍有含糊,体验就会崩掉。

或者说,2018 年语音交互的接收方是一套传统软件系统,它需要精确的输入才能运行,对口语化表达缺乏容忍度。哪怕语音识别本身的准确率已经达到 95% 以上,剩下那 5% 的错误在没有大模型兜底的情况下,每一个都会变成用户体验的断裂点。

在当时的技术条件下,一个以语音为主要操作方式的桌面电脑,无法兑现它的承诺,也无法带来想象中的体验。如果 TNT 搭载的是一个能理解自然语言的大模型,并且在今天发布,它面对的将是另一种情形。

大模型解决了 " 听不懂 " 的问题,但 " 不方便说 " 的问题仍然存在。在张心阳看来,语音办公在实际推广中面对的第一个问题就是噪声," 在开放式办公室里,七八个人同时对着电脑嘟囔,哪怕每个人都在压低音量,汇在一起也够让人头疼的 "。

美国人力资源软件公司 Gusto 的联合创始人 Edward Kim 近期在接受媒体采访时也表示,他在公司内部推广语音办公工具,自己 " 现在几乎一直在对着电脑说话 ",但在办公室里持续这样做 " 确实有点尴尬 "。

张心阳介绍,AhaKey 搭配大疆麦克风可以做到低声识别,在 20 分贝的音量下仍能保持 99% 的准确率,20 分贝大约相当于深夜卧室里的耳语,坐在旁边的同事几乎听不到你在说什么。

当然,在这个问题上也有另外的技术解决方案。5 月 28 日,科大讯飞研究院语音翻译条线总监孔常青在接受经济观察报记者采访时介绍,讯飞最新发布的 AI 眼镜采用了唇动识别结合麦克风阵列的多模态降噪方案,在展会、地铁、餐厅等高噪音场景下,识别准确率可以提升 30% 到 40%。

唇动识别和低声识别是两种不同的技术路径,但面对的是同一个市场需求:在人多嘈杂的环境里也能用语音办公。" 尤其是对于一些以前完全不可用的特别吵的场景,(唇动识别)基本上已经达到了使用的门槛。" 孔常青说。

语音办公面临的第二个问题是隐私——口述内容变成声波,邮件内容、代码逻辑、商业想法,周围的人都能听到;另外,云端处理的语音数据也让人有安全顾虑。

2025 年 11 月,有用户在社区论坛上发现,AI 语音听写软件 Wispr Flow 在宣称 " 零数据留存 " 的同时,实际上在存储用户的屏幕截图并上传至服务器。该事件迅速发酵,Wispr CEO Tanay Kothari 随后公开道歉并更新了隐私策略。Google 在 2026 年 5 月发布 AI 语音听写功能 Rambler 时也特别强调," 不存储语音录音,音频仅用于转写 "。

噪音和隐私的问题还没有完全解决,但这并没有阻止硬件厂商的快速入场——从录音卡片、耳机到眼镜、键盘,围绕语音和 AI 的办公硬件正在密集出现,品类和价格带也在快速拓宽。

比如,2025 年 8 月,钉钉发布首款 AI 硬件 DingTalk A1,售价分 799 元和 499 元两个版本,搭载 6 颗麦克风阵列,支持 120 多种语言转写;2026 年 1 月,飞书联合安克创新发布 AI 录音豆,重量 10 克,售价 899 元;此外,科大讯飞、360 公司也推出了类似产品。

对此,林会杰的感受很直接:" 对着键盘空流泪。我能想到是什么,也能说出来是什么,但打字打出来的时候就很痛苦。" 他认为,在想法和文字之间始终隔着一层翻译,从脑子里的念头到手指在键盘上敲出的字符,中间既有信息损耗,也有时间损耗,但 AI 大模型正在改变这种状况。据其介绍,讯飞的 GlassClaw 智能体可以把口语化表达自动整理成通顺文本," 一句话即可完成从查询信息到撰写方案到发送邮件的全流程 "。

张心阳亦称,其团队正在探索本地 Agent 与隐私计算能力。如果这个方向成立,语音加 AI 的组合将有可能催生一个独立于 PC 和手机之外的新办公硬件品类。当然,键盘依然会存在,但它的角色会发生变化——从主要输入工具变为编辑工具。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论