一手实测DeepSeek-V4预览版：复杂任务交付能力跃升，世界知识更具现实感

图片来源：视觉中国

蓝鲸新闻 4 月 24 日讯（记者朱俊熹）时隔近一年，DeepSeek 终于端出新一代模型 DeepSeek-V4 的预览版本。在这段时间内，团队虽然也保持了更新，但更多的还是基于 V3 进行小版本迭代。而根据官方介绍，全新的 DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。

按照模型大小的不同，此次发布同时提供 DeepSeek-V4-Pro、DeepSeek-V4-Flash 两个版本。其中，Pro 版本主打性能，强调可以比肩顶级闭源模型。具体来看，该模型的 Agent 能力相比前代模型显著增强。在 SWE Verified ( Resolved ) 等 Agent 相关评测中，V4-Pro 的表现要接近或优于 Anthropic 的 Claude-Opus-4.6-Max、谷歌的 Gemini-3.1-Pro-High，但不及 OpenAI 的 GPT-5.4-xHigh。

在世界知识方面，DeepSeek-V4-Pro 的表现要大幅领先于 Kimi-K2.6 Thinking、智谱 GLM-5.1 Thinking 等其他开源模型，仅略逊于顶级闭源模型 Gemini-Pro-3.1。而在数学、STEM 以及竞赛型代码等高强度推理任务中，V4-Pro 已超越现有公开评测中的所有开源模型，整体表现接近世界第一梯队闭源模型。

DeepSeek-V4-Flash 版本走的则是更快捷高效的路线。相比 Pro 版，V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。由于模型参数和激活更小，V4-Flash 能够提供更加快捷、经济的 API 服务。

为了验证 DeepSeek-V4 模型的实际表现，蓝鲸科技将其与腾讯混元昨日发布的新一代模型 Hy3 preview 进行了直接评测。首先是一个难倒过很多模型的经典文字题：" 我想去洗车，洗车店距离我家 50 米，你说我应该开车过去还是走过去？" 两款模型均能识别出问题中的陷阱，并给出了相应的正确回答。

在更复杂的任务中，两个模型的差异开始体现。以 " 生成一个可直接运行的 AI 模型价格对比网页工具 " 为例，这一任务不仅测试代码能力，还要求模型具备将模糊需求转化为完整产品的端到端交付能力。

从结果来看，DeepSeek-V4 和 Hy3 preview 均能生成可运行的单文件 HTML 页面，支持交互输入和数值调整，图表信息真实正确，数据变化后图表也会跟着更新。但在产品层面，DeepSeek-V4 生成的页面更简洁明确、审美清晰，而 Hy3 preview 的网页呈现略显繁琐、重复信息较多。

在世界知识考察中，例如判断 " 日本首都是大阪 "、" 便利店普遍 24 小时营业 " 等说法的正误，两款模型都能给出正确判断，并提供解释。在第二个选项的说明中，DeepSeek-V4 表现更进一步，额外引用了 2024 年的相关信息作为补充，指出近年来日本便利店 24 小时营业的 " 普遍性 " 正逐步下降，使整体回答更具时效性与现实感。

在 DeepSeek-V4 缺席的这段时间内，大模型行业已经发生了明显变化：Coding 与 Agent 能力快速提升，多模态能力也在成为新一轮竞争焦点。而回到 DeepSeek-V4 本身，此次更新依然没有加入多模态，但在 Agent 与长上下文两个方向给出了明确推进。

尤其是在长上下文能力上，DeepSeek-V4 开创了一种全新的注意力机制。通过在 token 维度进行压缩，并结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现百万级上下文处理能力，同时显著降低计算与显存开销。官方也明确表示，1M 上下文将成为后续所有服务的标配。

价格方面，DeepSeek-V4-Pro 的定价为：每百万 token 1 元（命中缓存）、12 元（未命中缓存），输出价格 24 元 / 百万 token。DeepSeek-V4-Flash 的定价为：每百万 token 0.2 元（命中缓存）、1 元（未命中缓存），输出价格 2 元 / 百万 token。

作为参考，Hy3 preview 在腾讯云大模型服务平台 TokenHub 上的定价为：输入价格最低 1.2 元 / 百万 tokens，输入命中缓存价格 0.4 元 / 百万 tokens，输出价格最低 4 元 / 百万 tokens。

从定价结构来看，DeepSeek-V4-Flash 版本在性价比上更具冲击力。对于 Pro 版本的价格，DeepSeek 解释称，" 受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。"

这也意味着，DeepSeek-V4 在算力侧正与国产算力体系形成更深层的协同关系，未来更便宜的单位 Token 成本，要靠国产 AI 芯片的大规模部署来兑现。华为官方也表示，昇腾一直同步支持 DeepSeek 系列模型，本次通过双方芯模技术紧密协同，实现昇腾超节点全系列产品支持 DeepSeek V4 系列模型。

近段时间以来，市场也传出 DeepSeek 正在寻求新一轮融资，并与腾讯、阿里等投资方接触的消息。一方面，DeepSeek 需要持续强化其在人才与研发投入上的竞争力，以应对大厂的 " 挖角 " 压力。另一方面，DeepSeek-V4 的亮相更像是下一阶段的起点。如何逐步缓解高端算力供给的约束，并将模型能力更稳定地转化为可持续的产品形态与商业体系，将成为 DeepSeek 接下来必须面对的核心课题。

宙世代

一起剪

相关标签