IT之家 7小时前
阿里Fun-ASR1.5语音识别模型发布:精通30国语言及中文七大方言
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 4 月 20 日消息,4 月 20 日(今天)下午,阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。

其基于统一的大模型架构,单模型即可覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音,古诗词吟诵也能精准转写。目前,Fun-ASR1.5 已在阿里云百炼平台正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。

在一些 " 高难度 " 的跨语言切换(Code-Switching)场景下,它也能应对自如。比如,同一段对话里夹杂多种语言,模型也能准确识别,无需提前告诉它接下来要说哪种语言。Fun-ASR1.5 现在可以做到无需预设语种标签,就自动识别并切换,保证转写的准确性。

据 IT 之家了解,该能力源于模型的架构和训练创新。MoE(混合专家)架构让模型内部可以分工协作,听到特定语言时仅激活相关部分进行处理,因而更为灵活高效。同时,在训练阶段分级、分阶段地使用精准数据,也让模型能更好地应对真实世界中的复杂语音情况。

在中文本土化方面,基于数十万小时真实方言语音数据的 " 喂养 ",Fun-ASR1.5 的平均字错误率(CER)相比上一版本下降 56.2%。

Fun-ASR1.5 可原汁原味还原方言,如上海话的 " 侬 "、苏州话 " 倷 "(均指 " 你 "),为下游模型处理方言文字提供了准确的基础语料。

Fun-ASR1.5 对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音 - 文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到 97%,可应用于国学在线课程和有声诗词,助力文化传承。

模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如输入语音:" 今天天气怎么样啊我想出去走走但又怕下雨 ",输出文本就是 " 今天天气怎么样啊?我想出去走走,但又怕下雨。"

其还支持将口语中的非标准表达自动转换为规范格式:

数字:" 三千五百六十二 " → "3562"

日期:" 二零二六年三月二十九号 " → "2026 年 3 月 29 日 "

金额:" 五万八千块 " → "58000 元 "

电话:" 幺三八零零幺三八零零零 " → "13800138000"

这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。

目前,用户可在阿里云百炼平台调用其 API,或在魔搭社区直接体验。

阿里云百炼:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

魔搭社区:https://modelscope.cn/studios/iic/FunAudio-ASR

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 it之家 阿里云 语音识别 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论