智东西 03-06
阿里32B新模型比肩满血DeepSeek-R1!苹果Mac本地可跑,网友已玩疯
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 程茜

编辑 | 云鹏

智东西 3 月 6 日报道,今日凌晨,阿里云发布最新推理模型 QwQ-32B,性能媲美 DeepSeek-R1,在消费级显卡上也能实现本地部署。

要知道其参数量为 32B,DeepSeek-R1 参数量达到了 671B,相差将近 20 倍。

在数学推理、编程能力上,QwQ-32B 的表现与 DeepSeek-R1 相当,强于 o1-mini 及相同尺寸的 R1 蒸馏模型。通用能力测评效果上,QwQ-32B 的得分均超越 DeepSeek-R1。

苹果的机器学习科学家 Awni Hannun(吴恩达学生)发文展示了 QwQ-32B 在配备 MLX(专门为苹果芯片设计的开源框架)的 M4 Max 芯片电脑上的运行速度很快。

该模型在 Hugging Face 和 ModelScope 上以 Apache 2.0 许可证下的开源。这意味着它可用于商业和研究用途,因此企业可以立即使用它来为他们的产品和应用程序提供动力(即使是他们向客户收费使用的产品和应用程序)。

Hugging Face 地址:huggingface.co/Qwen/QwQ-32B

魔搭社区地址:https://modelscope.cn/models/Qwen/QwQ-32B

体验地址:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

一、网友赞不绝口:推理速度 " 非常快 "、"o1-mini 级别本地模型 "

具体来看 QwQ-32B 在一系列基准测试中的得分。

QwQ-32B 与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及 DeepSeek-R1 进行了对比。

在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,QwQ-32B 表现与 DeepSeek-R1 相当,强于 o1-mini 及相同尺寸的 R1 蒸馏模型。

在由 Meta 首席科学家杨立昆领衔的 " 最难 LLMs 评测榜 "LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,QwQ-32B 得分超越 DeepSeek- R1。

QwQ-32B 的优势还在于,QwQ-32B 需要 GPU 上的 24GB vRAM(英伟达 H100 为 80GB),而运行完整的 DeepSeek R1 需要超过 1500GB vRAM。

社交平台 X 上的网友已经为之疯狂,到处充斥着 " 太震惊了 " 的言论。

机器学习爱好者 Vaibhav ( VB ) Srivastav 强调了 QwQ-32B 的推理速度,称其 " 非常快 ",可与顶级模型相媲美。

网友晒出了在 M4 Max 芯片的 MacBook 上运行的推理速度:

AI 新闻发布者 @Chubby 称 QwQ-32 B 太疯狂了!

Hyperbolic Labs 的联合创始人兼首席技术官 Yuchen Jin 发文称:" 小模型太强大了!"

有网友尝试了 QwQ-32B 的编码能力,并称赞其是 o1-mini 级别的可本地部署模型。他的提示词是 "Create an amazing animation using p5js(" 使用 p5.js 创建一个精彩的动画 ")。效果如下:

不过也有网友指出,巨大的尺寸差异意味着用户需要大约 5% 的高带宽内存来进行推理。

二、扩展强化学习,可持续提高数学、编码能力

研究人员在冷启动的基础上开展了大规模强化学习。在初始阶段,他们特别针对数学和编程任务进行了强化学习训练。

与依赖传统的奖励模型(reward model)不同,他们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。

QwQ-32B 的强化学习过程分两个阶段执行:

数学和编码重点:使用用于数学推理的准确性验证器和用于编码任务的代码执行服务器来训练该模型。这种方法确保生成的答案在被强化之前被验证正确性。

通用能力增强:在第二阶段,模型使用通用奖励模型和基于规则的验证器接受奖励训练。这个阶段改进了指令遵循、人类对齐和代理推理,而不影响其数学和编码能力。

QwQ-32B 遵循因果语言模型架构,并包括几个优化:

1、64 个 Transformer 层,具有 RoPE、SwiGLU、RMS Norm 和 Attention QKV 偏置;

2、分组查询注意力(GQA),40 个 attention heads 用于查询,8 个 attention heads 用于键值对(key-value pairs);

3、扩展了 131072 个 Tokens 的上下文长度,允许更好地处理长序列输入;

4、多阶段训练,包括预训练,监督微调和 RL。

凭借其强化学习驱动的推理能力,该模型可以提供更准确、结构化和上下文感知的见解,使其可用于自动化数据分析、战略规划、软件开发和智能自动化等用例具有价值。

为了获得最佳性能,通义千问团队建议使用以下设置:

1、强制正确输出:确保模型以 "n" 开头,以防止生成空的思考内容,这会降低输出质量。如果你使用 apply_chat_template 并设置 add_generation_prompt=True 就可以自动实现,但可能会导致响应在开始时缺少标签。

2、采样参数:使用 Temperature=0.6 和 TopP=0.95 而不是 Greedy 解码,以避免无休止的重复;使用 20 到 40 之间的 TopK 来过滤掉罕见的 Token 出现,同时保持生成的输出多样性。

3、标准化输出格式:数学问题:包括 " 请一步一步推理,并把你的最终答案放在 boxed{} 内。" 在提示;多项选择题:将以下 JSON 结构添加到提示中,以标准化回答:" 请在答案字段中仅显示选择字母,例如 " 答案 ":"C"。

4、处于长文本输入:对于超过 32768 个 Token 的输入,启用 YaRN 以提高模型有效捕获长序列信息的能力。

此外,该模型支持使用 vLLM(一种高吞吐量推理框架)进行部署。然而,vLLM 的当前实现仅支持静态 YaRN 缩放,即无论输入长度如何,都保持固定的缩放因子。

结语:强化学习成下一代模型关键驱动

基于 QwQ-32B,研究人员将强化学习定位为下一代 AI 模型的关键驱动力,证明可以产生高性能和有效的推理系统。

其博客中还提到,通义千问团队计划:进一步探索扩展 RL 以提高模型智能;将 Agent 与 RL 集成用于长时间推理;继续开发为 RL 优化的基础模型;通过更先进的训练技术向通用人工智能发展。

这是通义千问团队通过大规模强化学习以增强推理能力方面的第一步,其扩展了强化学习的巨大潜力,同时还展现出预训练语言模型中尚未开发的可能性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论