体验阿里首款语音输入法APP，CosyVoice还差点意思

在 AI 大模型的加持下，所有的软件都值得重做一遍。

输入法作为用户日均使用长、使用频次极高以及全场景入口级的一个产品，已经成为各大厂商争夺的核心赛道。

在输入法领域，除了搜狗、百度、讯飞等传统厂商，也包括微信、豆包，也都推出了相应的输入法产品。依托 AI 大模型赋能，主流输入法均完成功能升级，在基础语音转写之外，叠加 AI 润色、智能纠错、场景化内容生成、AI 搜索辅助等能力，各家的核心竞争逻辑相对一致，通过极致的输入体验升级抢占用户高频场景，巩固自身生态入口地位。

在 AI 输入法上，阿里算是一个后来者，近期即将推出的两款输入法产品：分别是主打全场景通用输入的千问输入法和聚焦语音智能成文的 CosyVoice 输入法。由于千问输入法 APP 版本尚未上线，因此本次体验的阿里上线的 CosyVoice 移动端 APP（1.2.0 版）。

作为长期高频文字输出的从业者，笔者需要进行高频次的文字输出。对于笔者来说，好用的语音输入工具能够极大提高工作效率。

因此，笔者也曾尝试使用过不同的 AI 语音输入法。但从实测结果看，阿里的 CosyVoice 并未展现出后来者的迭代优势和创新，更像是对标海外的爆款语音输入法 Typeless，优点非常清晰，但是短板也很明显。

01 以语音输入为主，优点缺点都很明显

CosyVoice 是阿里云达摩院通义实验室自研的生成式 AI 语音输入法，官方定位为新一代智能语音成文工具，核心主打 " 全场景语音输入 "，主打理念为 " 你只管说，AI 帮你优化成文 "，适配日常消息沟通、会议纪要、商务邮件、办公文稿等全场景文字输出需求，宣称可实现零键盘高效输入。

从产品形态到功能逻辑设计，CosyVoice 与海外纯语音输入法 Typeless 基本一致。两款产品均摒弃了传统输入法以键盘为主、语音为辅的模式，其核心是依托 AI 大模型的能力，对用户的口语表达进行优化。

图 | Typeless 输入界面

具体来说，它可以自动过滤口水词、重复的语气词和语气助词，并梳理混乱的语义，以结构化的表达进行输出。最终输出的是规范通顺、适配办公场景的成文内容，从而降低用户的二次修改成本。

本质上，AI 语音输入法解决的是一个输出效率的问题。对于文字工作者、职场办公人群、自媒体创业者等高频文字输出的人群，语音输入的效率远高于手动打字，这也是这类产品的核心用户壁垒。说白了，就是说话转成文字比打字快，从而节省了时间。所以在 APP 上会看到一个统计，显示打了多少字、节省了多少时间，其实这就是它的一个核心卖点。

在界面与功能布局上，CosyVoice 输入法界面与传统的打字输入法不同，整个界面被一个硕大语音录入按钮覆盖，将语音输入作为核心交互方式，仅在左上角保留一个小键盘入口，作为辅助输入的补充。

值得注意的是，这个键盘功能并不完整。目前仅仅支持 26 键单一键盘模式，不具备 9 键、模糊音、联想词等传统输入法成熟的键盘功能。整体的定位服完全服务于语音输入场景。

图 | CosyVoice 语音输入和键盘输入界面

而在 APP 内，主要包含 2 大模块：

第一，数据化历史记录。系统自动留存每一次语音转写的成文记录，同时统计累计输入字数、累计节省时间，既方便用户回溯历史内容，也能直观体现 AI 语音输入的效率价值。

第二，热词 Skill 定制功能。作为语音输入法的核心刚需功能，该功能支持用户自定义添加行业术语、专属名词、人名地名、企业专有词汇等热词，大幅提升专业场景下的语音转写准确率，有效解决通用语音模型对垂直领域词汇识别不准的痛点，适配职场、专业创作等精细化使用场景。

图 | CosyVoice 移动端 APP 页面内功能

实测下来，CosyVoice 依托阿里自研千问语义模型，实时语音识别响应速度快，日常通用场景的转写效率也较高。可以说，基础语音转写能力毋庸置疑，能够满足大部分用户日常高效输入的需求，这是基础的，也是它的核心优势。

但缺点也很明显，与 Typeless 一致，由于弱化了键盘输入功能，导致在一些常见的场景下体验并不友好，这也是许多之前用过 Typeless 的用户吐槽非常多的问题。

第一，在短句、单字、极简回复等轻输入场景，手动键盘打字的效率会比语音输入更高。例如回复一个 " 谢谢 "，语音输入的话，你得先说一句谢谢，然后再等它转写文字，它的输入效率反而更低。

第二，高度依赖云端大模型和网络环境。在高铁、地铁、偏远区域等信号断续、网络波动的场景中，极易出现转写卡顿、内容丢失、转写失败等问题，用户长时间口述的内容无法留存，需要重新录制，极大破坏使用连贯性。笔者在尝试使用 CosyVoice 撰写本文时候，就遇到信号波动，导致说了一通后并没转写成功，需要重新录入。

第三，润色模式单一，缺乏 " 人味 "。笔者在测试时发现，CosyVoice 强调结构化、书面化的表达逻辑。会自动将自然口语内容梳理为分点式、条目化书面文本，过度追求内容规整性。在日常社交、非正式沟通场景中，这种模版化格式化的表达，缺少一点 " 人感 " 或 " 人味 "。或许后续可增加不同场景下模型的切换调用，实现不同场景下转写后的润色。

第四，交互容错率低，误触成本高。笔者使用 CosyVoice 过程中，在语音录入完成时，由于误触了键盘以外的区域，导致 CosyVoice 转写失败，并且在 app 内无法找回录音并转写，导致需要重新口述录制。

02 纯语音输入法有未来吗

从技术本质来看，语音输入法本质上就是语音转写文字的一个功能。事实上，在 AI 大模型出来之前，传统的搜狗输入法、讯飞输入法等，都有语音转文字的功能。

只不过当时技术条件下，这些输入法只实现直译式转写，无法处理口语冗余信息，比如一些语气词、口水词以及重复的词语、语气卡顿、逻辑混乱都会被完整保留，导致转写的内容杂乱，可用性非常低，需要用户大量进行修改，导致早期的语音输入功能非常鸡肋。

随着 AI 大模型的发展，语音转写文字的过程中就可以进行大模型处理，删除一些口水词和重复词，梳理正确的语义，并进行结构化的表达。现在输出结果的可用程度已经提升得非常高，用户也愿意用。包括很多文字类工作者，或者需要经常大量回复信息的人，其使用频率是非常高的。包括本文，笔者也借助 AI 语音转写功能完成了初稿。

从这个角度而言，语音输入法是一个较为刚需的产品。

从产品形态的角度来看，当前 AI 语音输入法呈现两种产品形态：

第一种是纯语音主导、键盘辅助的形态，以海外的 Typeless 以及阿里 CosyVoice 为代表，这类产品摒弃了传统的键盘输入法功能布局，聚焦于语音成文的场景，服务于办公、创作等重度文字生产需求的人群。

第二种是键盘主导、语音赋能的通用形态，是以微信、讯飞、搜狗、豆包等输入法为代表，在传统键盘上增加语音输入功能。产品的形态以键盘为主，语音输入作为其中的一个功能，也能快速地调用并使用。

结合长期行业体验与产品迭代规律来看，未来两种形态的 AI 输入法终将走向融合统一。本质上，输入法是为了提升输入和输出的效率，无论是纯语音输入法还是传统的输入法，目的都是为了提升输出效率。

目前 Typeless 和 CosyVoice 都加上了键盘功能。虽然两者的键盘目前只是辅助功能，但随着产品迭代，为提升体验和效率，必然会在键盘功能上进行丰富与完善。而传统通用输入法，也在持续升级大模型语音优化能力，强化长文本结构化成文、智能润色等进阶功能。

AI 输入法赛道的比拼并非产品形态的比拼，背后其实拼的是大模型的能力。也就是说，如何更精准地识别用户的口语（包括口音，方言），以及能够更高效率地识别用户的意图（包括上下文关联识别意图）并进行转写，谁能最大程度减少用户二次修改成本，适配更多个性化场景需求，谁就能抢占用户心智与市场份额。

除此之外，输入法作为覆盖用户全场景输入，数据隐私与信息安全是不可忽视的核心命题。尤其是 AI 语音输入法需要处理大量口述内容、文本信息，个人隐私极易产生泄露风险。未来厂商的产品迭代，不仅需要优化输入效率与智能化能力，更需要搭建完善的隐私加密、本地缓存、数据脱敏机制，打消用户的安全顾虑。

我们也看到了阿里本次同时推出了两个输入法，一个是语音输入法 CosyVoice，另一个是全功能的千问输入法。对应的就是上述所说的当下两类语音输入法的形态。

目前，千问输入法还尚未推出移动端 APP 版本。后续千问输入法 APP 的体验，我们将继续保持关注。

宙世代

一起剪

相关标签