阿里甩出AI语音转写神器！准确率击败字节腾讯，连方言都能写对

智东西

作者 | 王涵

编辑 | 心缘

智东西 4 月 20 日报道，刚刚，阿里发布语音识别大模型 Fun-ASR1.5，该模型是千问端到端语音识别大模型的新一代版本。

该模型可以识别 30 种语言，覆盖中文七大方言体系及 20 余种地方口音，并强化了古诗词诵读的专项识别。Fun-ASR1.5 可以分辨出语音中的抑扬顿挫，重点优化了标点预测和文本归一化能力，可以应用于会议纪要、新闻采访整理、法律笔录等场景。

技术团队介绍称，与 Seed-ASR 和 Tencent-ASR 模型相比，Fun-ASR1.5 在西班牙语、葡萄牙语和英语方面的识别准确率成绩较为突出，均在 96 分以上。

Fun-ASR1.5 在开源多语言测试集中获得多项 SOTA

中文方言方面，Fun-ASR1.5 则在四川话、闽南话、长沙话、苏州话等 13 种方言识别准确率上，超越 Seed-ASR 和 Tencent-ASR 模型。

Fun-ASR1.5 在工业方言测试集中获得多项 SOTA

智东西第一时间体验了其音频转写功能。我们上传了一段三星 CES 2026"First Look" 演讲的录音音频。在原音频中，背景环境声音嘈杂，演讲人使用英语演讲但带有韩语口音，且录制声音较小。

Fun-ASR1.5 不仅将演讲内容准确完整地转写了出来，还根据演讲人的语气和内容，对相关语句进行了大写强调处理，提高了会议转写的效率。

智东西实测体验音频转写

目前用户可以在魔搭社区体验该模型，开发者可以通过阿里云百炼平台调用 API。

体验地址：

https://modelscope.cn/studios/iic/FunAudio-ASR

API 调用地址：

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能识别 30 种语言，跨语言切换无需预设

Fun-ASR1.5 可精准识别欧洲、东亚、东南亚、南亚及中东主流语种，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等 30 种语言。

韩语：

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

ASR 结果：저는 이 주제에 따라 한 말씀 드리자면 , 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다 .

马来语：

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

ASR 结果：Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙语：

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

ASR 结果：La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨语言切换（Code-Switching）场景下，Fun-ASR1.5 可以做到无需预设语种标签，就自动识别并切换，保证转写的准确性。比如，同一段对话里夹杂多种语言，模型也能准确识别，无需提前告诉它接下来要说哪种语言。

英语日语切换：

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

ASR 结果：We ’ ve all had that experience of finally visiting a place we ’ ve dreamed about for years,only to find that it doesn ’ t quite live up to our expectations.There ’ s even a term for this in one of the most visited cities in the world,Paris Syndrome. 何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技术团队介绍称，这种多语言能力，源于模型的架构和训练创新。Fun-ASR1.5 采取 MoE（混合专家）架构，模型内部可以分工协作，听到特定语言时仅激活相关部分进行处理，因而更为灵活高效。

同时，技术团队在模型的训练阶段分级、分阶段地使用精准数据，也可以使模型更能适配真实世界中的复杂语音场景。

二、错字率下降 56.2%，古诗词准确率达 97%

在中文本土化方面，基于数十万小时真实方言语音数据训练，技术团队称，Fun-ASR1.5 的平均字错误率（CER）相比上一版本下降 56.2%。

上海话：

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

ASR 结果：现在发展了蛮快个现在伊拉用户算大户唻。

客家话：

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR 结果：呃，那些吃的不就这样的土笋冻啊，我觉得不好吃。

闽南话：

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

ASR 识别结果：但是一个人若是两三两百箍一百外箍安无算贵吧，吼自助餐啊，啊你也有肉咯也有菜咯也有水果咯也有甜点咯，啥物计有咯。

粤语：

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

ASR 结果：诶，其实可能有时候觉得去超市都几远下噶。

此外，该模型不仅听得懂，还能 " 写得地道 "，Fun-ASR1.5 可原汁原味还原方言，如上海话的 " 侬 "、苏州话 " 倷 "（均指 " 你 "），为下游模型处理方言文字提供了准确的基础语料。

不同于现代口语，文言语法特殊、典故生僻字繁多，具有不少挑战。例如，文言语法简练，省略主谓宾；押韵严格，节奏固定（如五言、七言律诗）；多用典故、异体字、古今异义词；诵读时存在拖腔、停顿、吟咏等非自然语流特征。

Fun-ASR1.5 对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音 - 文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中，Fun-ASR1.5 对古诗词的字符级准确率达到 97%，可应用于国学在线课程和有声诗词，助力文化传承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

ASR 结果：蓬山此去无多路，青鸟殷勤为探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

ASR 结果：子夏曰，博学而笃志，切问而近思，仁在其中矣。

三、能自动插入标点符号，口语表达一键规范

语音识别最终都要落脚于生成可直接使用的文本，Fun-ASR1.5 在后处理环节也重点优化了标点预测和文本归一化两项能力，大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本，具体如下：

1、标点预测：更加智能模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如：

输入语音：" 今天天气怎么样啊我想出去走走但又怕下雨 " 输出文本：" 今天天气怎么样啊？我想出去走走，但又怕下雨。"

2、文本归一化（ITN）表现：进一步提升将口语中的非标准表达自动转换为规范格式：

数字：" 三千五百六十二 " → "3562"

日期：" 二零二六年三月二十九号 " → "2026 年 3 月 29 日 "

金额：" 五万八千块 " → "58000 元 "

电话：" 幺三八零零幺三八零零零 " → "13800138000"

结语：AI 语音模型正稳步落地应用

会议纪要、法律笔录等场景，长期处于 " 半自动 " 应用状态，核心痛点是 AI 识别结果需人工进行大量校对，不仅未能有效提升工作效率，还影响了实际工作推进。

阿里 Fun-ASR1.5 针对这一痛点进行定向优化，补齐了传统语音识别的部分短板，也降低了各行业引入 AI 语音技术的门槛。

目前，科大讯飞、百度、字节等企业的语音模型均在持续迭代，AI 语音大模型正从技术研发逐步向实际应用推进，语音识别作为 AI 与人交互的重要入口，其实用性直接关系到行业落地的实际效果。

宙世代

一起剪

相关标签