5 月 29 日凌晨,DeepSeek-R1-0528 正式在 Hugging Face 平台开源。此前一日(5 月 28 日),DeepSeek 官方宣布 DeepSeek-R1 模型已完成小版本试升级,用户可通过官方网页、App、小程序进行测试(打开深度思考),API 接口和使用方式保持不变。
在此次更新中,模型代码能力的提升最为显著。知名代码测试平台 LiveCodeBench 显示,更新后的 R1 性能可以媲美 OpenAI o3 模型的高版本。
除代码能力外,R1 新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至 128k,长文本提取的准确率也有显著提升。
《每日经济新闻》记者(以下简称 " 每经记者 ")通过俄罗斯方块游戏开发、太阳系模拟与交互展示,以及设计英伟达最新财报网页这三项任务对 R1 新版本进行了实测,发现 DeepSeek-R1-0528 的编程能力确实强大,对物理世界的理解以及文本的提取都相当准确。
知名 AI 评论人 Haider 在社交媒体上评价称,这是开源的一大胜利。
瑞士 IT 咨询公司 CTOL Digital Solutions 首席执行官 Max Zhang 则表示,在这一 " 小 " 进步之后,我们确实可以期待更大突破(DeepSeek-R2)的到来。
图片来源:Hugging Face
" 小升级 " 实现 " 大跨越 ":升级后的 R1 性能媲美 o3 模型高版本
DeepSeek 延续了其一贯的低调风格,此次升级率先在微信群进行官宣,并轻描淡写地将其定义为 " 小版本升级 "。
然而,众多开发者实测后发现,此次的 " 小 " 升级,并不小。升级后的 DeepSeek-R1,模型能力可以说实现了跨越式提升。
图片来源:DeepSeek 官方微信群截图
编码能力方面,代码测试平台 LiveCodeBench 显示,更新后的 DeepSeek-R1 性能接近 OpenAI 在 4 月中旬发布的 o4-mini 和 o3 模型高版本。
据测试者反馈,DeepSeek-R1-0528 能够一次性生成超千行无 Bug 代码,且在 HTML/CSS/JS 动态交互实现(如天气卡片动画、数据可视化)中更加精准。
图片来源:代码测试平台 LiveCodeBench
除代码能力外,新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至 128k,长文本提取的准确率也有显著提升。
在 Extended NYT Connections 基准测试中,相比于前一代 DeepSeek-R1,最新的 0528 版本的提升非常明显,得分从 38.6% 大幅升至 49.8%。
图片来源:X
目前,ChatBot Arena 也已经 " 上架 " 了最新版本的 DeepSeek-R1,但还没有任何的测试结果。
记者实测编程能力
为了更全面地测试 DeepSeek-R1-0528 的编程能力,每经记者设计了三项不同难度和类型的编程任务,包括网页游戏制作、物理世界模拟、财报可视化,来检验其在实际场景中的表现。
任务一:俄罗斯方块游戏开发
作为一款经典的休闲游戏,俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理、用户交互等多个方面,能够很好地考察模型对于综合编程知识的掌握和运用能力。
每经记者首先向 DeepSeek-R1 提出需求:" 请帮我开发一个网页端俄罗斯方块小游戏,要求包含游戏分数、彩色方块及多个关卡。"
DeepSeek 仅思考了 7 秒,就开始输出代码。然而,初步生成的游戏无法正常运作,虽有预设的分数与关卡显示,但游戏区域内并没有俄罗斯方块。
图片来源:由 DeepSeek 生成
随后,记者调整提示词,仅提了最基础的要求," 请帮我写个俄罗斯方块游戏(网页端),直接可以上手玩。"
简洁的指令似乎对 DeepSeek-R1-0528 更加奏效。这次 R1 思考 9 秒,用时约 3 分 30 秒便生成了代码。
从游戏页面来看,色彩搭配鲜明且协调,不同颜色的方块在深色背景下十分醒目,游戏区域布局合理,操作说明也清晰明了。
在游戏逻辑方面,方块的下落、移动和旋转都很流畅,没有出现延迟或卡顿现象。
可以说,已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。
任务二:太阳系模拟与交互展示
接下来,难度升级。对于大模型而言,对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。
此次,记者特意选取 " 行星轨道运动的物理模拟 " 这一任务,在考察其编码能力的同时,也考察 DeepSeek-R1-0528 对物理世界的理解能力。
记者向 R1 提出要求——写一个太阳系模拟网页,并且网页可交互展示。
因为任务更复杂,R1 思考时间也相应变长,耗时 54 秒后开始输出代码。
可以看出,R1 的整体完成度极高,完全可以作为中小学科普动画的原型演示。
从界面呈现看,太阳居于中心,八大行星依照各自轨道有序排布,色彩搭配也符合人们对天体的认知。此外,行星的大小比例、相对位置都比较精准。
在交互功能方面,右侧控制面板设计简洁且功能丰富。
同时,页面 " 行星信息 " 板块还以简洁明了的文字介绍了太阳及各大行星的关键特征,如太阳的质量、直径,水星的公转周期、表面温度等,兼具科普性与趣味性。
任务三:设计英伟达最新财报网页
最后,每经记者上传了英伟达 2026 财年第一财季财报的文档,要求 R1 根据财报中的内容,制作一个可交互的网页。
财报中数据繁杂,文本较长,非常考察模型准确提取文本的能力。
DeepSeek-R1 生成的网页令人眼前一亮。在视觉呈现上,网页采用了标志性的 " 英伟达绿 ",颜色搭配协调。
数据方面,基本做到了准确无误,很少出现 " 幻觉 " 情况。此外,模型还绘制了柱状图、饼图等图表,让复杂的数据变得一目了然。
尽管可能还存在一些细微的提升空间。比如,在涨跌幅的颜色上,我们通常用红色表示上涨,绿色表示下跌。但可能由于记者投喂的是美股公司财报(美股一般用绿色表示上涨,红色表示下跌),R1 用了与之对应的颜色来展示涨跌幅。
整体来看,R1 已充分彰显其在复杂任务处理上的卓越潜力。
" 全球 AI 竞赛关键节点 "!DeepSeek-R1 新版获海外盛赞
DeepSeek 最新发布的 R1 模型升级版在全球 AI 领域掀起热议,多位国际主流科技大佬及行业高管纷纷发声,盛赞其技术突破。
机器学习研究者 kalomaze 实测后赞叹道,"DeepSeek 太出色了。"
Hyperbolic Labs 联合创始人兼首席技术官 Yuchen Jin 表示,新版 R1 似乎是唯一能回答 9.9 减 9.11 等于几的模型。
知名 AI 评论人 Haider 直呼,这是开源的一大胜利。"DeepSeek 王者归来了。新版本的 DeepSeek-R1 在编程方面简直令人难以置信,这是我测试过的最佳模型。"
AI 撰稿人乔治 · 霍普金(George Hopkin)表示,DeepSeek 的 R1 模型更新后,推理和输出能力大幅提升,标志着中国在全球 AI 竞赛中的影响力日益增强。
瑞士 IT 咨询公司 CTOL Digital Solutions 首席执行官 Max Zhang 指出,DeepSeek 的最新版 R1 模型,正悄然成为谷歌 Gemini 2.5 Pro 的强劲竞争对手。"这一发展不仅仅是技术进步,更是全球 AI 竞赛中的一个关键节点。该模型凭借其双倍输出能力和增强的数学推理能力,展示了中国在 AI 领域的快速崛起。"
DeepSeek 此次更新的亮眼表现,为 DeepSeek 的下一代模型 R2 注入更多想象空间。Max Zhang 表示,在这一 " 小 " 进步之后,我们确实可以期待更大突破的到来。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦