北京时间 3 月 24 日晚间,DeepSeek 悄然将 DeepSeek-V3 模型的最新版本上传到了开源平台 HuggingFace。
新模型的版本号为 DeepSeek-V3-0324,参数为 6850 亿,较初代 V3 版本的 6710 亿有小幅增长。
尽管 DeepSeek 十分低调,但还是有不少人在第一时间就注意到了这一更新,并对其进行了测试。
根据社区测试反馈,DeepSeek-V3-0324 最明显的变化是编程能力得到了极大的提升。众多开发者基于对新模型的综合体验判断,新模型的编程能力已经接近目前最强编程模型 Claude 3.7 Sonnet。
3 月 25 日,专业 AI 模型评测机构 Artificial Analysis 发布的最新排名显示,新版 V3 在基准测试中较老版 V3 跃升了 7 位,排名所有非推理模型中的第一名。
《每日经济新闻》记者实测后发现,DeepSeek-V3-0324 的编程能力确实强大,但仍会出现幻觉问题。
有外媒推测:"V3 新版本的推出时机和特点强烈表明,它将成为 DeepSeek-R2 的基础,后者是一款新的推理模型,预计在未来两个月内推出。这遵循了 DeepSeek 的既定模式,即基础模型比专门的推理模型早几周推出。"
机构:新版 V3 排名非推理模型第一
当地时间 3 月 25 日,专业 AI 模型评测机构 Artificial Analysis 在评测完新版 V3 后发推表示,这对开源来说是一个里程碑,因为这是开放权重模型首次成为领先的非推理模型。新版 V3 在他们的基准测试中跃升了 7 位,为所有非推理模型中的第一名。
图片来源:Artifical Analysis
虽然它在能力上仍落后于众多推理模型,但这并不能影响这一成就的重要性。因为非推理模型相较于推理模型在速度上具有优势,它可以立即回答,而无需花时间 " 思考 "。
AI 编码工具 aider 开发者保罗 · 高蒂尔对其进行了多语言基准测试,得分为 55%,较上一个版本有显著提升。他认为,新版 V3 是仅次于 Claude 3.7 Sonnet 的非推理模型了,并且它比 R1 和 o3-mini 这样的推理模型更具竞争力,因为它的费用更便宜。
图片来源:X
开源大模型评测项目 Kcores 大模型竞技场的最新测试数据显示,新版 V3 的代码能力达到了 328.3 分,仅次于 Claude 3.7 Sonnet(思考模型)和 Claude 3.5(因不同测试之间题目不同,所以测试结果会有偏差)。
图片来源:Kcores 大模型竞技场
在 Kcores 大模型中的四个测试中,新版 V3 都展示了出色的能力,特别是在九大行星模拟测试中,它是测试的 25 个模型中,唯一一个画了土星环的大模型。
记者实测新版 V3 编程能力:完成度高,难掩幻觉问题
截至目前,DeepSeek 并没有放出 DeepSeek-V3-0324 的跑分结果。
不过,广大网友对其进行了独立测试。在众多用户的体验中,最常被提到的就是新版 V3 的代码能力。
有网友同时比较了新版 V3 和 R1 之间的编程能力,要求:
" 创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:
风:(例如,移动的云朵、摇曳的树木或风线)
雨:(例如,落下的雨滴、形成的水坑)
晴:(例如,闪耀的光线、明亮的背景)
雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。
卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。"
从下图可以发现,两者生成的效果可谓天差地别。
左侧为新版 V3,右侧为 R1 图片来源:X
每经记者也对新版 V3 进行了测试,请它生成一个可以互动的、介绍世界风光的网站前端。
DeepSeek 的响应过程十分丝滑,只花了 2 分钟就完成了,生成的网站配有日间 / 夜间模式切换、评论区、评分系统、收藏系统和社媒分享系统。
不过需要指出的是,在一些细节上 DeepSeek 还是出现了幻觉问题,比如在介绍马丘比丘时配上了和其毫无相关的图片,在介绍长城时张冠李戴地配上了故宫的图片。但整体的网站完成度还是值得点赞的。
网友热评:对 OpenAI 如同噩梦,对 DeepSeek-R2 寄予厚望
还有网友综合体验下来表示,新版 V3 的提升幅度大约相当于 Sonnet 3.5 到 Sonnet 3.6 的提升。
有国外网友直呼,这对 OpenAI 来说就是一场噩梦。
有外媒表示:"V3 新版本的推出时机和特点强烈表明,它将成为 DeepSeek-R2 的基础,后者是一款新的推理模型,预计在未来两个月内推出。这遵循了 DeepSeek 的既定模式,即其基础模型比专门的推理模型早几周推出。"
Artificial Analysis 表示,此版本可以说比 R1 更令人印象深刻,并且可能表明 R2 将是另一个重大飞跃。
Kocres 联合创始人 "karminski 牙医 " 在测试完新版 V3 后表示:"DeepSeek-V3 新版本的能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2!我现在十分期待 DeepSeek-R2 的发布了!"
国外知名 AI 评论员 "chubby" 表示,这个小更新比预期的要大很多,因此我们对 DeepSeek-R2 寄予厚望。R2 会成为有史以来最重要的开源推理模型。
有 Reddit 用户指出:" 这与 DeepSeek 在圣诞节前后发布 V3 并在几周后发布 R1 的方式一致。据传 R2 将于 4 月发布。"
如果 DeepSeek-R2 遵循 R1 发布的轨迹,它可能会对 OpenAI 的下一个旗舰模型 GPT-5 构成直接挑战。此前,阿尔特曼在访谈中表示,GPT-5 很快就会和大家见面。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦