快科技 3 月 27 日消息,阿里云宣布今天发布新一代端到端多模态旗舰模型 Qwen2.5-Omni。
该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
据介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。
其中,Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。
而 Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。
测试中,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。
登录后才可以发布评论哦
打开小程序可以发布评论哦