智东西
作者 | 李水青
编辑 | 云鹏
智东西 9 月 5 日消息,今天,谷歌开源一款全新的开放式嵌入模型 EmbeddingGemma。该模型以小博大,拥有 3.08 亿个参数,专为端侧 AI 设计,支持在笔记本、手机等设备上部署检索增强生成(RAG)、语义搜索等应用程序。
EmbeddingGemma 的一大特征是能生成隐私性良好的高质量嵌入向量,即使在断网情况下也能正常运行,且性能直追尺寸翻倍的 Qwen-Embedding-0.6B。
Hugging Face 开源页面截图
Hugging Face 地址:
https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
据谷歌介绍,EmbeddingGemma 具有以下几大亮点:
1、同类最佳:在海量文本嵌入基准(MTEB)上,在 500M 以下的开放式多语言文本嵌入模型中,EmbeddingGemma 排名最高。EmbeddingGemma 基于 Gemma 3 架构打造,已针对 100 多种语言进行训练,并且体积小巧,经过量化后可在不到 200MB 的内存上运行。
MTEB 评分:EmbeddingGemma 性能比肩比起尺寸大一倍的顶尖模型
2、专为灵活离线工作而设计:小巧、快速、高效,提供可自定义的输出尺寸,以及 2K 令牌上下文窗口,可在手机、笔记本电脑、台式机等日常设备上运行。它旨在与 Gemma 3n 配合使用,共同为移动 RAG 管道、语义搜索等解锁新的用例。
3、与流行工具集成:为了让用户轻松开始使用 EmbeddingGemma,它已经可以与用户喜欢的工具一起使用,例如 sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain 等。
一、可生成优质嵌入向量,端侧 RAG 生成答案更准确
EmbeddingGemma 会生成嵌入向量,在本文语境中,它能将文本转换为数值向量,在高维空间表征文本语义;嵌入向量质量越高,对语言细微差别与复杂特性的表征效果越好。
EmbeddingGemma 会生成嵌入向量
构建 RAG 流程存在两个关键阶段:一是根据用户输入检索相关上下文,二是基于该上下文生成有依据的答案。
为实现检索功能,用户可以先生成提示词的嵌入向量,再计算该向量与系统中所有文档嵌入向量的相似度——通过这种方式,能够获取与用户查询最相关的文本片段。
随后,用户可将这些文本片段与原始查询一同输入生成式模型(如 Gemma 3),从而生成符合上下文的相关答案。例如,模型能理解你需要联系木工的电话,以解决地板损坏的问题。
要让这个 RAG 流程切实有效,初始检索步骤的质量至关重要。质量不佳的嵌入向量会导致检索到不相关的文档,进而生成不准确或毫无意义的答案。
而 EmbeddingGemma 的性能优势正体现于此——它能提供高质量的(文本)表征,为精准、可靠的端侧应用提供核心支持。
二、以小博大,性能接近尺寸翻倍的 Qwen-Embedding-0.6B
EmbeddingGemma 提供了与其规模相适应的最先进的文本理解能力,在多语言嵌入生成方面具有特别强大的性能。
与其他流行嵌入模型的比较,EmbeddingGemma 在检索、分类和聚类等任务上表现出色。
EmbeddingGemma 在 Mean(Task)、Retrieval、Classification、Clustering 等测试中全面赶超了同等尺寸的 gte-multilingual-base 模型。其测试成绩也已接近尺寸达到其两倍的 Qwen-Embedding-0.6B。
EmbeddingGemma 的测评情况
EmbeddingGemma 模型拥有 308M 参数,主要由大约 100M 模型参数和 200M 嵌入参数组成。
为了实现更高的灵活性,EmbeddingGemma 利用 Matryoshka 表征学习(MRL),在一个模型中提供多种嵌入大小。开发者可以使用完整的 768 维向量以获得最佳质量,也可以将其截断为较小的维度(128、256 或 512),以提高速度并降低存储成本。
谷歌在 EdgeTPU 上将嵌入推理时间(256 个输入 token)缩短至
利用量化感知训练(QAT),谷歌在保持模型质量的同时,显著将 RAM 使用量降低至 200MB 以下。
三、断网可用,可在不到 200MB 内存上运行
EmbeddingGemma 支持开发者构建灵活且注重隐私的设备端应用。它直接在设备硬件上生成文档嵌入,帮助确保敏感用户数据的安全。
它使用与 Gemma 3n 相同的分词器进行文本处理,从而减少 RAG 应用的内存占用。用户可使用 EmbeddingGemma 解锁新功能,例如:
无需联网即可同时搜索个人文件、文本、电子邮件和通知。
通过 RAG 与 Gemma 3n 实现个性化、行业特定和离线支持的聊天机器人。
将用户查询分类到相关的函数调用,以帮助移动智能体理解(用户需求)。
下图为 EmbeddingGemma 的交互式演示,它将文本嵌入在三维空间中可视化,该模型完全在设备上运行。
EmbeddingGemma 的交互式演示(图源:Hugging Face 团队的 Joshua)
Demo 体验地址:
https://huggingface.co/spaces/webml-community/semantic-galaxy)
结语:小尺寸大能力,加速端侧智能发展
EmbeddingGemma 的推出标志着谷歌在小型化、多语言和端侧 AI 上的新突破。它不仅在性能上接近更大规模的模型,还兼顾了速度、内存和隐私的平衡。
未来,随着 RAG、语义搜索等应用不断下沉至个人设备,EmbeddingGemma 或将成为推动端侧智能普及的重要基石。
登录后才可以发布评论哦
打开小程序可以发布评论哦