量子位 01-22
最壕DeepSeek玩家8台Mac跑R1,10万+元凑496GB显存才能跑4bit量化版
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek-R1,正在接受全球网友真金白银的检验。

花 30 秒用 manim 代码制作解释勾股定理的动画,一次完成无错误。

为了玩上这样的模型,有人花上 10 多万元,组 7 台 M4 Pro Mac mini+1 台 M4 Max Macbook Pro 的家用超算。

总计 496G 显存(64*7+48),才能跑起个 4bit 量化版,但属实算得上 " 家用 AGI" 配置了。

另一个极端是选择 R1 数据蒸馏版 Qwen 1.5B 小模型,小到浏览器就能跑,每秒能输出 60 个 tokens。

与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。

首先是 LiveBench,与 LiveCodeBench 一样,题目是随时间更新的,所以相对受认可。

R1 的表现在 o1-preview 到 o1 之间,其中只有数据一项超过 o1。

不过再带上成本成本约 1/30 这个条件看,又是不一样的感觉,给老哥整无语了。

唯一的抱怨是上下文窗口太短。

o1 系列一战成名的 ARC-AGI,测试结果分为公开数据和私有数据两部分。

DeepSeek R1 在私有数据上解决了 15.8% 的问题,与 DeepSeek-V3 相比翻倍还多。

公开数据上更是解决了 20.5% 的问题,与 DeepSeek-V3 相比上涨约 46%。

总的来看,DeepSeek-R1 表现与 o1-preview 相近,但稍低。

但同样,带上几毛钱就能解决一道题,o1 系列至少要 10 块钱这个背景来看,又是不一样的感觉。

考验任务规划能力的 PlanBench,同样的剧本再次上演。

在开发者 Xeophon 自己的个人测试上,甚至超过了 o1-preview。

同一个测试上,R1 数据蒸馏的 Qwen 32B,与 DeepSeek-V3,GPT-4o 和 Gemini Flash 处于同一水平。

最后,还有人从中看到新的创业机会。

谁来构建一个平台,能轻松地在 DeepSeek R1 上进行 OpenAI 风格的强化微调。

至少在短期内,是一个巨大的机会。

R1 在正确数据和微调方法下,可能在特定任务上大幅提升。

参考链接:

[ 1 ] https://x.com/alexocheema/status/1881561143736664180

[ 2 ] https://x.com/reach_vb/status/1881809400995934640

[ 3 ] https://livebench.ai/#/

[ 2 ] https://x.com/arcprize/status/1881761987090325517

[ 3 ] https://x.com/TheXeophon/status/1881443117787984265

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

flash 一战
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论