太平洋电脑网 05-07
英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】英伟达近日推出了全新自动语音识别 ( ASR ) 开源模型 Parakeet TDT 0.6B。该模型仅需 1 秒即可处理长达 60 分钟的音频文件,其处理速度是现有主流开源 ASR 模型的 50 倍。同时,在 Hugging Face 的 Open ASR Leaderboard 上,Parakeet TDT 0.6B 的字错率 ( WER ) 低至 6.05%,在开源模型中表现优异,为实时转录、语音分析、呼叫中心智能化以及音频内容索引等企业级应用提供了强大支持。

Parakeet TDT 0.6B 基于先进的 Transformer 架构,采用 6 亿参数的编码 - 解码结构,并利用高质量转录数据进行微调。此外,该模型还针对英伟达硬件进行了优化,通过量化和融合内核技术提升了推理效率,并支持 TDT ( Transducer Decoder Transformer ) 架构。

除了速度和精度,Parakeet TDT 0.6B 还内置了多项独特功能。该模型还支持将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台中具有广泛的应用前景。此外,该模型还支持数字和时间戳格式化,能够显著提升会议记录、法律转录和医疗记录的可读性。标点恢复功能的加入,则进一步增强了下游自然语言处理 ( NLP ) 应用的表现。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 英伟达 语音识别 医疗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论