智东西
编译 | 金碧辉
编辑 | 程茜
智东西 6 月 6 日消息,昨天,阿里巴巴宣布推出 Qwen3-Embedding 和 Qwen3-Reranker 系列模型,正式发布 Qwen3-Embedding 和 Qwen3-Reranker 系列大模型技术报告,首次公开开源模型 Qwen3-Embedding 和 Qwen3-Reranker 的推理架构、训练策略及评测结果。
Qwen3-Embedding 和 Qwen3-Reranker,均基于 Qwen3 基础模型训练,专为文本表征、检索与排序任务设计。其中,Qwen3-Embedding 接收单段文本,将其转换为语义向量,以用于语义搜索、问答系统等场景。Qwen3-Reranker 则接收文本对,利用单塔结构计算并输出两个文本的相关性得分,可在各类文本检索场景中显著提升搜索结果的相关性。在实际应用中,二者常结合使用,比如在 RAG 系统里,Qwen3-Embedding 用于初步检索,Qwen3-Reranker 用于优化候选结果,兼顾效率和精度。
Qwen3-Embedding 8B 以 70.58 分登顶 MTEB(当前全球公认的文本嵌入模型评测基准,通过整合检索、聚类、分类等 7 大场景,系统评估向量模型的语义表征能力)多语言榜全球第一,创历史新高(截至 2025 年 6 月 6 日);Qwen3-Reranker 在 mMARCO 跨语言检索中 MRR@10 达 0.42,超越行业标杆。双模型支持 119 种语言及编程语言,提供 0.6B/4B/8B 全尺寸覆盖,其中 Reranker 对 100 文档排序延迟压至 80ms 内(A100),长文本处理突破 32k 上下文。即日起双模型在 Hugging Face/GitHub/ModelScope 开源免费商用,阿里云 API 同步上线。
图源阿里巴巴 Qwen3-Embedding 和 Qwen3-Reranker 系列模型技术报告
模型地址:
https://github.com/QwenLM/Qwen3-Embedding
https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
一、阿里巴巴发布 Qwen3-Embedding 模型,模型多语言得分超 70
阿里巴巴昨天正式推出 Qwen3-Embedding 文本向量模型,提供 0.6B、4B、8B 三档参数规模,全面覆盖轻量级边缘计算到高性能云端场景。该模型支持 119 种自然语言及 Python、Java 等编程语言,并突破性地实现 32k tokens 长文本处理能力。
目前 Qwen3-Embedding 模型以 Apache 2.0 协议免费开源,开发者可通过 Hugging Face、ModelScope 及阿里云 API 一键部署。
在权威评测中,Qwen3-Embedding 8B 版本以 70.58 分登顶 MTEB 多语言 Leaderboard 榜单(截至 2025 年 6 月 6 日),超越 Google Gemini-Embedding 等商业模型。
Qwen3-Embedding 模型在 MTEB 多语言 Leaderboard 榜单中位列第一
Qwen3-Embedding 模型在代码检索(MTEB-Code)任务中,搜索精准度排名第一。
Qwen3-Embedding 在代码检索任务中表现的性能
在多模态文本嵌入(MTEB)跨语言场景下,Qwen3-Embedding 8B 模型在多语言检索任务中取得了 69.02 的高分,在中文检索任务中得分达到 77.45,在英文检索任务中得分达到 69.76。
Qwen3 Embedding 在多模态文本嵌入任务中表现的性能
除此,技术报告还透露,Qwen3 Embedding 依托 Qwen3 基座模型的深度语言理解能力,创新采用双编码器架构,能独立处理查询文本与文档内容,生成高精度语义向量。
Qwen3-Embedding 模型采用三阶段训练框架:首阶段基于 36 万亿 token 多语言数据弱监督预训练,第二阶段融合 MS MARCO 标注数据进行监督微调,最终通过模型融合技术提升泛化性。推理层面 Qwen3-Embedding 模型创新性支持自定义指令模板,使特定任务性能提升 3%-5%。
Qwen3-Embedding 的模型架构
Qwen3-Embedding 的核心优势在于多语言深度适配(跨语言检索误差率降低 30%)、长文本处理标杆级能力(32k 窗口 + 双块注意力机制),以及灵活定制化设计(竞品如 OpenAI text-embedding 仅支持固定维度)。
同时,Qwen3-Embedding 模型的开源免费策略显著降低技术门槛,中小企业可零成本构建文档检索、知识库聚类等系统,可能使多语言文本处理技术进入普惠化应用阶段。
二、32k 长文档精准排序:Qwen3-Reranker 支持法律科研检索 99% 稳定性
阿里巴巴的 Qwen3-Reranker 系列模型专门用于提升搜索和推荐系统相关性排序能力的模型,该系列提供 0.6B/4B/8B 三档参数规模。Qwen3-Reranker 系列模型专为文本表征、检索与排序任务设计。该系列模型采用基于 Qwen3 基础模型的稠密版本,并与 Qwen3-Embedding 模型协同构建端到端检索链路。
Qwen3-Embedding 与 Qwen3-Reranker 系列的训练流程
Qwen3-Reranker 系列模型的 32k tokens 上下文窗口专为法律文书、科研论文等长文档排序优化,显著提升长文本处理稳定性。模型以 Apache 2.0 协议开源免费,开发者可通过 Hugging Face、GitHub、ModelScope 获取,或通过阿里云 API 一键调用集成。
Qwen3-Reranker 模型采用单塔交互结构,将用户查询与候选文档拼接输入,通过动态计算查询 - 文档交互特征输出相关性得分,实现非静态向量匹配的实时排序。
Qwen3-Reranker 的模型架构
针对长文档场景,Qwen3-Reranker 模型集成 RoPE 位置编码与双块注意(Dual Chunk Attention)机制,有效避免长程信息丢失,确保 32k 上下文内语义连贯性。
同时,Qwen3-Reranker 模型支持任务指令微调,开发者可通过自定义指令(如 " 按病例描述相关性排序 ")优化特定领域性能,实测可提升排序准确率 3%-5%,而竞品如 ColBERT 缺乏此类功能。
阿里巴巴 Qwen3-Reranker 系列模型提供了三种不同参数规模的模型配置,分别为 0.6B、4B 和 8B 参数,以满足不同场景下的性能与效率需求。
Qwen3-Reranker 0.6B 模型参数量为 0.6B,属于超小型模型,适合端侧设备部署。其上下文长度达 32k,采用基于 Transformer 的架构,以 RMSNorm 对层输入进行归一化,确保训练稳定;Qwen3-Reranker 0.6B 模型能无缝集成两种思考模式,在保持推理效率的同时,展现出良好的多语言处理能力。
Qwen3-Reranker 4B 模型参数量为 4B,性能匹敌 Qwen2.5-72B-Instruct。Qwen3-Reranker 4B 模型同样具备 32k 的上下文长度,它通过多项架构增强提升语义理解能力;Qwen3-Reranker 4B 模型在 AIME25(美国数学邀请赛)评测中得分为 81.5,刷新了开源模型记录,展现出强大的数学推理能力,能够处理复杂的数学问题,进行严谨的计算和多步推理。
Qwen3-Reranker 8B 模型参数量为 8B,上下文长度在标准配置下为 32768 个 Token;Qwen3-Reranker 8B 在多语言检索任务中取得了 69.02 分,性能超越 bge-reranker-large 等开源竞品;在中文检索任务中得分达到 77.45,在英文检索任务中得分达到 69.76,显著优于传统 BM25 和 ColBERT 等其他基线模型。
另外,Qwen3-Reranker 模型或推动高精度检索技术普及,企业知识库问答准确率提升 40%,大幅降低人工成本;跨境电商实现 119 语言商品精准搜索,误检率下降 35%;科研法律领域长文档检索效率突破 90%,加速信息提取。
阿里巴巴的开源策略激活开发者生态,通过 Hugging Face 快速微调行业模型,阿里云 API 支持 5 行代码接入,极大降低技术门槛。同时推动文本检索从 " 关键词匹配 " 升级至 " 语义理解 + 动态交互 ",为 AI Agent 与多模态应用奠定基础。
结语:告别通用泛化!阿里报告揭示:文本处理进入精准专用
Qwen3-Embedding/Reranker 通过 " 多语言 + 长文本 + 可定制 " 三位一体设计,解决了传统文本处理模型泛化性差、成本高的痛点。其开源策略更将加速产业应用创新,开发者可基于 Hugging Face 快速微调,企业可通过阿里云 API 即时部署。阿里巴巴在文本嵌入领域的技术布局覆盖从轻量级到高性能的全场景需求。
技术报告特别提醒,在实际检索场景中,建议应用者根据具体任务、语言和场景设计指令模板,否则可能影响效果。这一细节可能反映出 AI 模型正从 " 通用泛化 " 向 " 精准专用 " 演进,也为行业提供了新的优化思路。
登录后才可以发布评论哦
打开小程序可以发布评论哦