智东西
作者 | 李水青
编辑 | 云鹏
智东西 5 月 29 日报道,今天凌晨,DeepSeek-R1-0528 在 Hugging Face 上开源。
地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
此前昨日晚间,DeepSeek 官方推送通知,R1 模型已经完成小版本试升级,可在官方网站、APP、小程序测试(打开深度思考)体验。
针对 DeepSeek-R1-0528,DeepSeek 尚未放出模型卡介绍更多功能。但多方用户体验后提到,DeepSeek-R1-0528 在编程、逻辑推理、交互能力等方面均有显著提升。
已有开发者对 DeepSeek-R1-0528 进行了基准测试,称这是开源领域的重大胜利。代码测试平台 Live CodeBench 显示,其性能接近 OpenAI 在 4 月中旬发布的 o4 mini 和 o3 模型高版本。
DeepSeek-R1-0528 性能接近 o3 模型高版本
测试地址:
https://livecodebench.github.io/leaderboard.html
同时有文本召回测试结果显示,32k 以内文本 DeepSeek-R1-0528 比之前的 R1 要好不少,但是 60k 下降了不少。这意味着在 32k 以内针对给定的材料使用新 R1 提问让它回答的话,准确度会好不少。
DeepSeek-R1-0528 基于材料回复更准确
测试地址:
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87
多位开发者通过案例体验称,DeepSeek-R1-0528 效果基本追平 Claude 4,有些情况下表现更好。
" 直接看效果 , 我就提两点 , 注意平面的橙色漫反射 , 以及控制面板的美观程度。这俩是用同一个提示词一次性生成的,Claude 4 sonnet 生成了 542 行 , DeepSeek-R1-0528 生成了 728 行。帧率和运动角度细节也值得关注。" 一位开发者在 X 平台上称。
DeepSeek-R1-0528 与 Claude 4 sonnet 进行效果比较
有开发者让 DeepSeek-R1-0528、Claude 4 和 DeepSeek-V3-0324 在飞机大战游戏生成对比效果。新版 R1 在之前的基础上,自己新增了很多道具,画面也比之前更好了。
开发者放出 DeepSeek-R1-0528 在飞机大战游戏程序的表现
此外,根据测试者反馈,DeepSeek-R1-0528 能够一次性生成超千行无 Bug 代码,且在 HTML/CSS/JS 动态交互实现(如天气卡片动画、数据可视化)中更加精准。
DeepSeek-R1-0528 在风格上更接近 OpenAI o3,是目前开源大模型中性能顶尖的版本之一。有测试者认为,该版本的性能可能原本计划作为 R2 发布,但因竞争压力而以 R1 升级版形式推出。
登录后才可以发布评论哦
打开小程序可以发布评论哦