编译 | 程茜
编辑 | 心缘
智东西 3 月 12 日报道,刚刚,谷歌发布 emma 3 系列模型。谷歌博客中说,这是其迄今为止最先进、最便携、最负责任开发的开放式模型,是 " 世界上最好的单 GPU 模型 "。
Gemma 3 采用与 Gemini 2.0 相同的研究和技术,支持超过 35 种语言,并能够分析文本、图像和短视频。
其优势在于可以直接在手机、PC、工作站上快速运行,参数规模有 1B、4B、12B 和 27B 四种,开发者可以根据特定硬件和性能需求选择。
Gemma 3 在知名 AI 排行榜 LMArena 上的初步人类偏好评估中优于 Llama-405B、DeepSeek-V3 和 o3-mini。
谷歌还推出了基于 Gemma 3 的图像安全分类器 ShieldGemma 2,ShieldGemma 2 可用于过滤图像输入和输出,以查找归类为色情、危险或暴力的内容。
▲ Gemma 3 技术报告
Hugging Face 地址:https://huggingface.co/blog/gemma3
Kaggle 地址:https://www.kaggle.com/models/google/gemma-3
论文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
一、引入官方量化版本,单卡即可运行
谷歌以不同的标准格式提供模型的量化版本,通过使用量化感知训练(QAT)对每个模型进行少量步骤微调获得的,这使得 Gemma 3 在保持高精度的同时减少了模型大小和计算要求。
按 Chatbot Arena Elo 分数对 AI 模型进行排名:分数越高(排名越靠前的数字)表明越受用户青睐。下方的圆点表示模型对英伟达 H100 GPU 的需求,Gemma 3 27B 模型排名很高,其他模型可能需要多达 32 块 GPU,Gemma 3 27B 仅需一块 GPU 即可运行。
▲ Chatbot Arena 评估分数越高越受青睐(下方原点指模型运行需要使用的英伟达 H100 数量)
从 Chatbot Arena 评测结果来看,Gemma-3-27B-IT 得分超过 DeepSeek-V3、01-preview 等模型。其论文中提到,所有模型均由人类评分员通过盲目并排评估,每个模型都根据 Elo 评分系统获得一个分数,Gemma-3-27B-IT 是 2025 年 3 月 8 日收到的初步结果。
Gemma 3 在 LMArena 排行榜上的初步人类偏好评估中优于 Llama-405B、DeepSeek-V3 和 o3-mini。
Gemma 3 系列模型为超过 35 种语言提供开箱即用的支持,并为 140 多种语言提供预训练支持。
此外,其可以帮助开发者创建具有高级文本和视觉推理功能的 AI 功能,如分析图像、文本和短视频的应用程序。Gemma 3 支持函数调用和结构化输出,可帮助开发者自动执行任务并构建 Agent。
▲视觉识别
除了 Gemma 3,谷歌还推出了基于 Gemma 3 构建的 4B 参数图像安全检查器 ShieldGemma 2。
ShieldGemma 2 可以输出三个类别的安全标签:危险内容、露骨色情和暴力。开发人员可以根据他们的安全需求和用户进一步定制 ShieldGemma。
二、与 Gemma 2 训练方式类似,增加多语言数据
Gemma 3 遵循与 Gemma 2 类似的方法进行知识提炼的预训练。
训练数据方面,研究人员在比 Gemma 2 稍大的 token 预算上对模型进行预训练,即在 Gemma 3 27B 上使用 14T tokens,在 12B 版本上使用 12T tokens,在 4B 版本上使用 4T tokens,在 1B 版本上使用 2T tokens。token 的增加解释了预训练期间使用的图像和文本的混合。
此外,研究人员还增加了多语言数据量以提高语言覆盖率,并添加了短语和并行数据等。
Tokenizer(分词器)方面,研究人员使用与 Gemini 2.0 相同的 Tokenizer:具有拆分数字、保留空格和字节级编码的 SentencePiece Tokenizer,生成的词汇表有 262k 个条目,此 Tokenizer 对于非英语语言来说更加平衡。
Gemma 3 使用过滤技术降低不必要或不安全的言论风险,并删除某些个人信息和其他敏感数据。其会从预训练数据混合物中净化评估集,并通过最大限度地减少敏感输出的扩散来降低风险。
研究人员为每个 token 抽取 256 个 logit,并按教师概率加权。学生通过交叉熵损失在这些样本中学习教师的分布。对于非抽样 logit,教师的目标分布设置为零概率,并重新规范化。
三、附带改进代码库高效微调,已在英伟达 API 上线
开发者现在可以将 Gemma 3 和 ShieldGemma 2 无缝集成到现有的工作流程中。
Gemma 3 的开发工具包括 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM 和 Gemma.cpp。
开发者可以在 Google AI Studio 中访问 Gemma 3,或通过 Kaggle 或 Hugging Face 下载模型。
在自定义方面,Gemma 3 附带了一个改进的代码库,其中包括用于高效微调和推理的配方。开发者可以通过 Google Colab、Vertex AI 甚至游戏 GPU 进行训练和微调模型。
Gemma 3 提供了多种部署选项,包括 Vertex AI、Cloud Run、Google GenAI API、Iocal 环境等。
值得一提的是,英伟达直接优化了 Gemma 3 模型,以确保开发者在从 Jetson Nano 到最新的 Blackwell 芯片上都能获得最高性能。Gemma 3 现已在英伟达 API 目录中,开发者只需调用 API 即可实现快速原型设计。
英伟达 API 目录:https://build.nvidia.com/search?q=gemma
Gemma 3 还针对 Google Cloud TPU 进行了优化,并通过开源 ROCm 堆栈与 AMD GPU 集成。
结语:低硬件需求模型受捧,谷歌 Gemma 3 学术计划开启
对 DeepSeek 等模型的关注,凸显出开发者对硬件要求较低的大模型的兴趣。
因此,为了进一步促进学术研究突破,谷歌还推出了 Gemma 3 学术计划。学术研究人员可以申请 Google Cloud 积分(每个奖励价值 10000 美元),以加速他们基于 Gemma 3 的研究。申请表今天开放,并将持续开放四个星期。
登录后才可以发布评论哦
打开小程序可以发布评论哦