在 R2 和 V4 到来之前,DeepSeek 先让我们看到了 "V3 Plus"。
3 月 24 日,DeepSeek 一声不响的在 Huggingface 上发布了 V3 的 " 小版本 " 迭代 "DeepSeek-V3-0324"。开发者社区再次一片尝鲜与夸赞。
之后 3 月 25 日晚,官方发布了该版本的官方报告。在 DeepSeek 的报告里,给出了四个官方亮点指引,分别是推理能力、前端开发能力、中文写作能力、中文搜索能力的强化。
乍看起来,这些能力提升都聚焦在用户常见任务场景之上。这也的确是一次非常注重实用性的升级,虽名为 " 小版本 ",V3-0324 却在多个关键能力上实现了显著突破,尤其是代码生成能力的提升令人印象深刻。用户只需关闭深度思考模式,就能体验这一新版本,而 API 接口和使用方式保持不变。
而仔细观察这几个提升的领域,会发现一个有意思的点:DeepSeek 给 V3 做的提升,全都落在 R1 的优势能力范围内了啊。
据报告显示,推理能力的提升主要体现在新版 V3 模型的百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)表现均有提高,特别是在数学、代码类相关评测集上取得了超过 GPT-4.5、Claude-Sonnet-3.7 的得分成绩。
过去,在 DeepSeek 的两个模型中,R1 是推理模型,而 V3 则更适合日常对话。如今 V3 系列也有了推理能力的强力升级,用户可以更好地根据任务难度选择合适的模型:复杂问题用 R1,日常对话用新版 V3。这种差异化策略让算力资源与任务需求更匹配,避免了不必要的计算浪费。
在推理能力之上,几项任务场景中,最引人注目的是模型的代码稳定性和准确性。继 Claude-Sonnet-3.7 在前端开发能力上火爆出圈之后,大模型在这一场景的实用性被额外关注。在 V3 新版本技术报告出现之前,不少网友们就迫不及待地测出了 V3-0324 在前端开发场景下的能力飞跃。
有开发者报告生成 800 行代码,字符蹦到 " 冒火星 ",竟然无一错误。对开发者而言,这种体验在遍地都是爱报错的 AI 编程工具之下,显得尤为突出。
还有用户进一步测试表明,尽管还有差距,但 DeepSeek-V3-0324 在前端视觉设计上已经接近了 Claude 这样的顶级模型。
用户只需提供简单提示,就能生成时尚的数字营销页面,布局合理,视觉效果精美。这种实用性的提升对网页设计师和前端开发者尤为重要,大大缩短了从创意到实现的时间。
与社区测试相呼应,DeepSeek 官方在技术报告中也展示了模型的前端代码能力。报告中展示了一个 p5.js 小球物理运动程序,包含可调整的物理参数和赛博朋克风格界面,不仅功能完整,还具有高度的美观性和交互性。
更重要的是,这个不比 Claude 差的新版本,可以免费使用,据网友测算,付费 API 的价格更是便宜了 15 倍。
除了代码能力,DeepSeek R1 的写作能力也一直被津津乐道。其细腻的文风虽然有时会陷入极繁主义的浮夸,但情节连贯性和特定风格下的表达能力很强,有短剧和小说从业者都曾对硅星人提到,已经开始应用 DeepSeek 创作。
此次,新版本 V3 在中文能力也有明显增强,特别是中长篇文本创作上质量更高,结构更完整,逻辑更严密,实用性也大大增强。
另外,在联网搜索场景下,报告生成能力也有显著提升。模型能够从网络信息中提取关键内容,生成详实准确的报告,并以清晰美观的排版呈现。
在开源方面,DeepSeek 也继续保持了其一贯的透明度和友好性。作为小版本更新,私有化部署只需要更新 checkpoint 和 tokenizer_config.json 等少量文件。这意味着现有用户升级成本极低,几乎可以无缝迁移。据报告显示,该模型参数约 660B,略低于原先 V3 的 671B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文),依然采用 MIT 许可证,这使得开发者可以在各种场景下自由使用。
这些能力提升其实幅度不小,但 DeepSeek 没有把它称为 V3.5、V3.7,而只是将它定义为一次 V3 小版本更新。
在行业版本迭代泛滥、概念炒作盛行的当下,通过低调务实的姿态赢得了更多开发者社区的尊重。虽然能力有显著提升,但由于没有大的技术路线突破,仍将其定位为小版本迭代,那么当 DeepSeek 真正发布 R2 时,那将是一次名副其实的重大升级,而非行业常见的 " 通货膨胀式 " 命名。
这种对技术命名的诚实态度,也是外界格外期待 R2 的重要理由。
而这次更新最重要的地方还在于,DeepSeek 的 V3 和 R1 出现后,如 Anthropic 等对手在尝试用新方法超车,核心在于把推理模型和大语言模型融合,无论是产品上通过 AI 的自动调配来融合到一起,还是从模型层面就 " 合二为一 "。
现在看来,DeepSeek 此次更新也很直白的展示了自己接下来的路线,也是把 V 系列和 R 系列融合成一个新模型。
官方报告中明确指出,此次更新与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法,并借鉴了 DeepSeek-R1 模型训练过程中的强化学习技术。
这是纯 RL 路线的再一次的验证和公示,在对手们继续闭源并使用 " 唯一混合模型 " 这样的概念来吸引人的时候,它继续通过开源为行业提供公开的高效迭代思路。DeepSeek 这开源的仗还会继续打下去,好戏还在后面。
登录后才可以发布评论哦
打开小程序可以发布评论哦