三易生活 03-27
通义千问开源新一代端到端多模态旗舰模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,阿里云方面正式发布新一代端到端多模态旗舰模型 Qwen2.5-Omni-7B。据了解,这也是通义系列模型中首个端到端全模态大模型,可同时、无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

根据阿里云方面公布的相关信息显示,Qwen2.5-Omni-7B 在一系列同等规模的单模态模型基准测试中,展现出全球最强的全模态优异性能,其在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的 Audio 或 VL 模型,并且其语音生成测评分数达 4.51、与人类能力持平。

而且在多模态融合任务 OmniBench 等测评中,Qwen2.5-Omni-7B 也刷新了业界纪录,全维度远超谷歌 Gemini-1.5-Pro 等同类模型。

据了解,Qwen2.5-Omni-7B 之所以能实现高性能,在于其采取了一系列突破性创新技术,包括阿里云通义团队首创的 Thinker-Talker 双核架构,以及 Position Embedding (位置嵌入)融合音视频技术、位置编码算法 TMRoPE(Time-aligned Multimodal RoPE)等。其中,Thinker-Talker 双核架构让 Qwen2.5-Omni-7B 拥有了人类的 " 大脑 " 和 " 发声器 ",形成端到端的统一模型架构,实现了实时语义理解与语音生成的高效协同。

目前,Qwen2.5-Omni-7B 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源,支持开发者和企业免费下载商用。此外值得一提的是,该模型可在手机等智能终端硬件部署、运行。对此阿里云方面表示,相较于动辄数千亿参数的闭源大模型,Qwen2.5-Omni 以 7B 的小尺寸让全模态大模型在产业上的广泛应用成为可能。

公开资料显示,自 2023 年以来,阿里云通义团队已陆续开发覆盖 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等参数的 200 多款 " 全尺寸 " 大模型,囊括文本生成模型、视觉理解 / 生成模型、语音理解 / 生成模型、文生图及视频模型等。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里云 谷歌 开源 语音合成
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论