以色列创企开源 3B 模型,性能碾压谷歌 Gemma 3-4B。
作者 | 李水青
编辑 | 心缘
智东西 10 月 9 日报道,昨日,以色列 AI 创企 AI21 Labs 开源轻量级推理模型 Jamba Reasoning 3B。该模型有 30 亿个参数,可在包括手机、电脑在内的多种设备端运行,性能超过 Qwen3-4B、Gemma 3-4B 等业界顶尖模型。
▲ Jamba Reasoning 3B 开源截图
Hugging Face 地址:
http://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B
A21 称,Jamba Reasoning 3B 基于其新的 SSM-Transformer 架构构建,上下文窗口长度为 256K 个 token,能够处理高达 1M token,与 DeepSeek、谷歌、Llama 和微软等竞争对手相比效率提升了 2-5 倍,在基准测试中取得领先成绩。
▲ Jamba Reasoning 3B 在人类最后测试等测评中超 Qwen 3-4B 等模型
其将 Jamba Reasoning 3B 的优势总结为三点:
1、智能性能不下降:由于采用了混合 SSM-Transformer 架构,Jamba Reasoning 3B 比纯 Transformer 模型更高效。
大多数基于 Transformer 的模型在上下文长度超过 32K 个 token 时性能会显著下降,而 Jamba Reasoning 3B 能够处理更长的上下文长度,包括高达 100 万个 token。这使得它在高级智能体系统或多模态应用中非常有用,因为长上下文理解对输出质量至关重要。
▲ Jamba Reasoning 3B 的性能虽上下文增长损耗小
2、领先的智能:Jamba Reasoning 3B 的表现优于 DeepSeek、谷歌、Meta 和微软的其他设备端模型。
它在指令跟踪任务(IFBench)和常识性知识(MMLU-Pro 和 Humanity's Last Exam)方面尤为出色,这使得 Jamba Reasoning 3B 成为一款高效且智能的模型,可用于高级智能体工作流程或设备端 RAG 应用。
这些成果源于训练后流程,A21 将 RLVR、SFT、DPO 和 GRPO 等对齐训练技术与自主研发的专有方法相结合,以确保模型质量。
▲ Jamba Reasoning 3B 测评超阿里、谷歌等模型
3、专为设备安全使用而构建:此模型获得 Apache 2.0 许可,可直接下载到用户的计算机或手机上,并使用用户自己的文件在设备上进行定制,以实现完全安全的应用程序,即使断网它们也可以继续运行。
Jamba Reasoning 3B 的混合 SSM-Transformer 架构成功利用了比原始 Transformer 架构小 8 倍的键值缓存(KV),即使在上下文增长的情况下也能保持较低的内存占用。
在 M3 MacBook Pro 上,它每秒可以生成 40 个 token,上下文长度为 32K,这一成绩优于 Qwen3-4B、DeepSeek Distill Qwen 1.5B、Gemma 3-4B 等模型,使其成为高级智能体应用程序中的精简组件。
▲在 M3 MacBook Pro 上每秒可以生成 40 个 token
该模型目前支持的语言包括:英语、西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语。
结语:轻量模型加速迭代
开辟智能体落地新路径
随着企业将 AI 融入运营,基于云端的大型语言模型暴露出经济效率低下的问题。A21 援引研究报告称,40%-70% 的 AI 任务可以通过小型语言模型处理,通过智能路由将成本降低 10-30 倍。
像 Jamba Reasoning 3B 这样的设备端轻量模型能够实现经济高效的异构计算分配,在本地处理简单任务,同时保留云端资源用于复杂推理。这为制造业和医疗保健领域的实时应用提供了低延迟,为远程操作提供了离线恢复能力,并增强了数据隐私保护,有望开启了一个去中心化的 AI 时代。
登录后才可以发布评论哦
打开小程序可以发布评论哦