快科技 6 月 6 日消息,阿里正式开源了通义千问 3 全新的向量模型系列 Qwen3-Embedding(简称千问 3 向量模型)。
该模型以千问 3 为底座,专门为文本表征、检索和排序等核心任务进行优化训练,相较于上一个版本,在文本检索、聚类、分类等核心任务上提升最高 40% 以上的性能。
在 MTEB 等专项榜单中,Qwen3-Embedding-8B 超越谷歌的 Gemini Embedding 、Open AI 的 text-embedding-3-large 及微软的 multilingual-e5-large-instruct 等顶尖模型,拿下同类模型的最佳性能 SOTA。
向量模型可以看做是 AI 的 " 翻译器 ",它可以将文本、图片等非结构化信息,映射(embedding)到机器更易理解的向量空间,再基于这些向量实现高效的信息分类、检索或排序。
基于千问 3 模型,通义团队通过对比训练、SFT、模型融合等方法,打造出全新的千问 3 向量模型,包含文本嵌入模型 Qwen3-Embedding 以及文本排序模型 Qwen3-Reranker。
同时,得益于千问 3 的多语言能力,千问 3 向量模型系列率先支持超 100 种语言,并涵盖多种编程语言,可实现强大的多语言、跨语言及代码检索能力。
此次共有 9 款千问 3 向量模型开源,涵盖 0.6B、4B 、8B 等不同尺寸及 GGUF 版本,开发者可从中找到最符合需求的模型,自由组合模块,还可自定义向量或指令,实现特定任务、语言和场景的深度优化。
目前,千问 3 Embedding 和 Reranker 模型均已在魔搭社区、 Hugging Face 和 GitHub 等平台上开源,开发者也可直接通过阿里云百炼使用 API 服务。
据了解,千问 3 大模型自 4 月 29 日开源以来,已揽获 Artificial Analysis、LiveBench、LiveCodeBench、SuperClue 多个榜单的全球开源冠军。
登录后才可以发布评论哦
打开小程序可以发布评论哦