谷歌发布Gemma 4大模型：31B登顶开源第三！手机可离线运行

快科技 4 月 3 日消息，今天凌晨，谷歌 DeepMind 正式推出新一代开源大模型 Gemma 4，该模型与谷歌闭源旗舰 Gemini 共享底层技术，也是时隔一年对 Gemma 3 的重大升级。

此次谷歌一改此前自有协议，采用 Apache 2.0 商业友好型许可证开源，开发者可无门槛自由修改、分发和商用。

一口气推出四款不同规格模型，覆盖从手机、边缘设备到工作站、服务器的全场景部署，在参数效率上表现亮眼，31B 版本更是跻身 Arena AI 开源排行榜第三。

Gemma 4 的四款模型分为大模型组和小模型组，各有针对性优化。

31B Dense 为 310 亿参数全激活架构，60 层且拥有 256K 上下文窗口，主打性能上限，未量化权重可在单张 80GB H100 显卡运行，量化后消费级显卡也能部署。

26B A4B MoE 采用混合专家架构，252 亿总参数仅激活 38 亿，推理速度接近 4B 模型，性能却远超同级别，位列开源排行榜第六，延迟敏感场景性价比更高。

小模型组的 E4B 和 E2B 主打端侧部署，分别为 80 亿总参数（45 亿有效）、51 亿总参数（23 亿有效），均配备 128K 上下文窗口，E2B 内存占用可压至 1.5GB 以下，且两款小模型搭载音频编码器，支持语音识别与翻译，大模型则专注视觉与文本能力，无音频功能。

所有模型均为多模态，支持图像、视频输入和 140 多种语言，谷歌还与 Pixel、高通、联发科合作优化端侧，E2B/E4B 可在手机、树莓派等设备完全离线运行。

相较于上一代 Gemma 3 27B，Gemma 4 实现了代际级的性能提升，尤其在代码领域进步最为显著，Codeforces ELO 从 110 提升至 2150，LiveCodeBench v6 正确率从 29.1% 增至 80.0%。

数学方面，AIME 2026 竞赛测试 31B 版本正确率达 89.2%，远超上代 20.8%；综合推理上，研究生级科学问答 GPQA Diamond 正确率从 42.4% 升至 84.3%，MMLU Pro 达 85.2%。

视觉和长上下文短板也被补齐，MMMU Pro 多模态推理正确率提升至 76.9%，MRCR v2 128K 长文档理解从 13.5% 增至 66.4%，多语言能力也同步升级，MMMLU 多语言测试达 88.4%。

此外，26B MoE 与 31B 性能仅差 2-5 个百分点，E4B 有效参数 45 亿，性能却接近上代 27B 版本，参数效率优势突出。

Gemma 4 还打造了多项核心能力，全系列内置可开关的思考模式，开启后先输出推理过程再给答案，大幅提升数学、逻辑等多步骤任务表现；原生支持函数调用和结构化 JSON 输出，可对接外部工具与 API，谷歌还同步发布开源 Agent 开发框架 ADK，端侧模型也能运行 Agent。

多模态处理上支持可变分辨率图片和 60 秒以内视频帧处理，视觉 token 预算可手动调节，适配不同速度与精度需求；长文档处理采用混合注意力机制，优化了内存占用，兼顾处理效率与效果。

宙世代