在 AI 大模型的加持下,所有的软件都值得重做一遍。
输入法作为用户日均使用长、使用频次极高以及全场景入口级的一个产品,已经成为各大厂商争夺的核心赛道。
在输入法领域,除了搜狗、百度、讯飞等传统厂商,也包括微信、豆包,也都推出了相应的输入法产品。依托 AI 大模型赋能,主流输入法均完成功能升级,在基础语音转写之外,叠加 AI 润色、智能纠错、场景化内容生成、AI 搜索辅助等能力,各家的核心竞争逻辑相对一致,通过极致的输入体验升级抢占用户高频场景,巩固自身生态入口地位。
在 AI 输入法上,阿里算是一个后来者,近期即将推出的两款输入法产品:分别是主打全场景通用输入的千问输入法和聚焦语音智能成文的 CosyVoice 输入法。由于千问输入法 APP 版本尚未上线,因此本次体验的阿里上线的 CosyVoice 移动端 APP(1.2.0 版)。
作为长期高频文字输出的从业者,笔者需要进行高频次的文字输出。对于笔者来说,好用的语音输入工具能够极大提高工作效率。
因此,笔者也曾尝试使用过不同的 AI 语音输入法。但从实测结果看,阿里的 CosyVoice 并未展现出后来者的迭代优势和创新,更像是对标海外的爆款语音输入法 Typeless,优点非常清晰,但是短板也很明显。
01 以语音输入为主,优点缺点都很明显
CosyVoice 是阿里云达摩院通义实验室自研的生成式 AI 语音输入法,官方定位为新一代智能语音成文工具,核心主打 " 全场景语音输入 ",主打理念为 " 你只管说,AI 帮你优化成文 ",适配日常消息沟通、会议纪要、商务邮件、办公文稿等全场景文字输出需求,宣称可实现零键盘高效输入。
从产品形态到功能逻辑设计,CosyVoice 与海外纯语音输入法 Typeless 基本一致。两款产品均摒弃了传统输入法以键盘为主、语音为辅的模式,其核心是依托 AI 大模型的能力,对用户的口语表达进行优化。
图 | Typeless 输入界面
具体来说,它可以自动过滤口水词、重复的语气词和语气助词,并梳理混乱的语义,以结构化的表达进行输出。最终输出的是规范通顺、适配办公场景的成文内容,从而降低用户的二次修改成本。
本质上,AI 语音输入法解决的是一个输出效率的问题。对于文字工作者、职场办公人群、自媒体创业者等高频文字输出的人群,语音输入的效率远高于手动打字,这也是这类产品的核心用户壁垒。说白了,就是说话转成文字比打字快,从而节省了时间。所以在 APP 上会看到一个统计,显示打了多少字、节省了多少时间,其实这就是它的一个核心卖点。
在界面与功能布局上,CosyVoice 输入法界面与传统的打字输入法不同,整个界面被一个硕大语音录入按钮覆盖,将语音输入作为核心交互方式,仅在左上角保留一个小键盘入口,作为辅助输入的补充。
值得注意的是,这个键盘功能并不完整。目前仅仅支持 26 键单一键盘模式,不具备 9 键、模糊音、联想词等传统输入法成熟的键盘功能。整体的定位服完全服务于语音输入场景。
图 | CosyVoice 语音输入和键盘输入界面
而在 APP 内,主要包含 2 大模块:
第一,数据化历史记录。系统自动留存每一次语音转写的成文记录,同时统计累计输入字数、累计节省时间,既方便用户回溯历史内容,也能直观体现 AI 语音输入的效率价值。
第二,热词 Skill 定制功能。作为语音输入法的核心刚需功能,该功能支持用户自定义添加行业术语、专属名词、人名地名、企业专有词汇等热词,大幅提升专业场景下的语音转写准确率,有效解决通用语音模型对垂直领域词汇识别不准的痛点,适配职场、专业创作等精细化使用场景。
图 | CosyVoice 移动端 APP 页面内功能
实测下来,CosyVoice 依托阿里自研千问语义模型,实时语音识别响应速度快,日常通用场景的转写效率也较高。可以说,基础语音转写能力毋庸置疑,能够满足大部分用户日常高效输入的需求,这是基础的,也是它的核心优势。
但缺点也很明显,与 Typeless 一致,由于弱化了键盘输入功能,导致在一些常见的场景下体验并不友好,这也是许多之前用过 Typeless 的用户吐槽非常多的问题。
第一,在短句、单字、极简回复等轻输入场景,手动键盘打字的效率会比语音输入更高。例如回复一个 " 谢谢 ",语音输入的话,你得先说一句谢谢,然后再等它转写文字,它的输入效率反而更低。
第二,高度依赖云端大模型和网络环境。在高铁、地铁、偏远区域等信号断续、网络波动的场景中,极易出现转写卡顿、内容丢失、转写失败等问题,用户长时间口述的内容无法留存,需要重新录制,极大破坏使用连贯性。笔者在尝试使用 CosyVoice 撰写本文时候,就遇到信号波动,导致说了一通后并没转写成功,需要重新录入。
第三,润色模式单一,缺乏 " 人味 "。笔者在测试时发现,CosyVoice 强调结构化、书面化的表达逻辑。会自动将自然口语内容梳理为分点式、条目化书面文本,过度追求内容规整性。在日常社交、非正式沟通场景中,这种模版化格式化的表达,缺少一点 " 人感 " 或 " 人味 "。或许后续可增加不同场景下模型的切换调用,实现不同场景下转写后的润色。
第四,交互容错率低,误触成本高。笔者使用 CosyVoice 过程中,在语音录入完成时,由于误触了键盘以外的区域,导致 CosyVoice 转写失败,并且在 app 内无法找回录音并转写,导致需要重新口述录制。
02 纯语音输入法有未来吗
从技术本质来看,语音输入法本质上就是语音转写文字的一个功能。事实上,在 AI 大模型出来之前,传统的搜狗输入法、讯飞输入法等,都有语音转文字的功能。
只不过当时技术条件下,这些输入法只实现直译式转写,无法处理口语冗余信息,比如一些语气词、口水词以及重复的词语、语气卡顿、逻辑混乱都会被完整保留,导致转写的内容杂乱,可用性非常低,需要用户大量进行修改,导致早期的语音输入功能非常鸡肋。
随着 AI 大模型的发展,语音转写文字的过程中就可以进行大模型处理,删除一些口水词和重复词,梳理正确的语义,并进行结构化的表达。现在输出结果的可用程度已经提升得非常高,用户也愿意用。包括很多文字类工作者,或者需要经常大量回复信息的人,其使用频率是非常高的。包括本文,笔者也借助 AI 语音转写功能完成了初稿。
从这个角度而言,语音输入法是一个较为刚需的产品。
从产品形态的角度来看,当前 AI 语音输入法呈现两种产品形态:
第一种是纯语音主导、键盘辅助的形态,以海外的 Typeless 以及阿里 CosyVoice 为代表,这类产品摒弃了传统的键盘输入法功能布局,聚焦于语音成文的场景,服务于办公、创作等重度文字生产需求的人群。
第二种是键盘主导、语音赋能的通用形态,是以微信、讯飞、搜狗、豆包等输入法为代表,在传统键盘上增加语音输入功能。产品的形态以键盘为主,语音输入作为其中的一个功能,也能快速地调用并使用。
结合长期行业体验与产品迭代规律来看,未来两种形态的 AI 输入法终将走向融合统一。本质上,输入法是为了提升输入和输出的效率,无论是纯语音输入法还是传统的输入法,目的都是为了提升输出效率。
目前 Typeless 和 CosyVoice 都加上了键盘功能。虽然两者的键盘目前只是辅助功能,但随着产品迭代,为提升体验和效率,必然会在键盘功能上进行丰富与完善。而传统通用输入法,也在持续升级大模型语音优化能力,强化长文本结构化成文、智能润色等进阶功能。
AI 输入法赛道的比拼并非产品形态的比拼,背后其实拼的是大模型的能力。也就是说,如何更精准地识别用户的口语(包括口音,方言),以及能够更高效率地识别用户的意图(包括上下文关联识别意图)并进行转写,谁能最大程度减少用户二次修改成本,适配更多个性化场景需求,谁就能抢占用户心智与市场份额。
除此之外,输入法作为覆盖用户全场景输入,数据隐私与信息安全是不可忽视的核心命题。尤其是 AI 语音输入法需要处理大量口述内容、文本信息,个人隐私极易产生泄露风险。未来厂商的产品迭代,不仅需要优化输入效率与智能化能力,更需要搭建完善的隐私加密、本地缓存、数据脱敏机制,打消用户的安全顾虑。
我们也看到了阿里本次同时推出了两个输入法,一个是语音输入法 CosyVoice,另一个是全功能的千问输入法。对应的就是上述所说的当下两类语音输入法的形态。
目前,千问输入法还尚未推出移动端 APP 版本。后续千问输入法 APP 的体验,我们将继续保持关注。


登录后才可以发布评论哦
打开小程序可以发布评论哦