通义千问开源新一代端到端多模态旗舰模型

日前，阿里云方面正式发布新一代端到端多模态旗舰模型 Qwen2.5-Omni-7B。据了解，这也是通义系列模型中首个端到端全模态大模型，可同时、无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

根据阿里云方面公布的相关信息显示，Qwen2.5-Omni-7B 在一系列同等规模的单模态模型基准测试中，展现出全球最强的全模态优异性能，其在语音理解、图片理解、视频理解、语音生成等领域的测评分数，均领先于专门的 Audio 或 VL 模型，并且其语音生成测评分数达 4.51、与人类能力持平。

而且在多模态融合任务 OmniBench 等测评中，Qwen2.5-Omni-7B 也刷新了业界纪录，全维度远超谷歌 Gemini-1.5-Pro 等同类模型。

据了解，Qwen2.5-Omni-7B 之所以能实现高性能，在于其采取了一系列突破性创新技术，包括阿里云通义团队首创的 Thinker-Talker 双核架构，以及 Position Embedding （位置嵌入）融合音视频技术、位置编码算法 TMRoPE（Time-aligned Multimodal RoPE）等。其中，Thinker-Talker 双核架构让 Qwen2.5-Omni-7B 拥有了人类的 " 大脑 " 和 " 发声器 "，形成端到端的统一模型架构，实现了实时语义理解与语音生成的高效协同。

目前，Qwen2.5-Omni-7B 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源，支持开发者和企业免费下载商用。此外值得一提的是，该模型可在手机等智能终端硬件部署、运行。对此阿里云方面表示，相较于动辄数千亿参数的闭源大模型，Qwen2.5-Omni 以 7B 的小尺寸让全模态大模型在产业上的广泛应用成为可能。

公开资料显示，自 2023 年以来，阿里云通义团队已陆续开发覆盖 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等参数的 200 多款 " 全尺寸 " 大模型，囊括文本生成模型、视觉理解 / 生成模型、语音理解 / 生成模型、文生图及视频模型等。

【本文图片来自网络】

宙世代

一起剪

相关标签