AIX财经 4小时前
主动“认输”的DeepSeek,这次到底行不行?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

文 | AIX 财经,作者 | 李梦冉,编辑 | 魏佳

没有发布会,没有倒计时,DeepSeek V4 就这样直接上线了。

这已经是 DeepSeek 惯用的节奏。但这次不一样的地方在于,他们在技术报告里主动写下了一句话:V4 的能力水平仍落后于 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型 3 至 6 个月。

这句话放在国内 AI 圈的语境里,显得有些格格不入。大多数模型发布,标配的是 " 全球领先 "" 行业第一 "。DeepSeek 反过来,主动划出差距。

但如果细看这次发布的内容,就会发现这并不是谦虚,V4 压根没打算在 " 谁最强 " 这个问题上和 GPT-5 掰手腕。V4 想做的,是把百万 token 的超长上下文变成所有用户的标配,同时把价格打到竞品的三分之一以下。

这篇文章我们想说清三件事:V4 是什么、它能干什么,以及这次发布背后值得关注的信号是什么。

01.V4 最大变化:超长文本全系标配

V4 模型按大小分为 Pro 和 Flash 两个版本,在官方网页端和 APP 界面分别是专家模式和快速模式。

Pro 是旗舰版,主打能力上限,对标的是 GPT-5、Gemini 这类顶级闭源模型,适合对效果要求极高的复杂任务。Flash 是轻量版,速度更快、价格更低,推理能力接近 Pro,但世界知识储备稍逊一些。

两款模型都支持同一件事,也是这次发布最值得普通用户关注的变化——百万 token 的超长上下文,全系标配,不分版本,不加价。

" 上下文 " 这个词听着技术,简言之就是 "AI 一次能读多少内容 "。按照 100 万 token 大约是 75 万汉字换算,差不多把整部《三国演义》喂给 V4,它都能完整理解和分析。

这源于 V4 采用了 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)的混合架构。同样处理一百万字的内容,V4 只需要前代模型四分之一的算力和十分之一的显存。

以前这个能力不是没有,但价格都很贵,得单独付费或者升级套餐。V4 把它变成了所有用户默认就有的基础能力。对日常使用来说,感知最明显的一点是:使用者不再需要把一份长报告剪来剪去分段喂给 AI,整份材料可以一次性丢进去,让它直接处理。

此外,V4 提供了三档推理强度:

Non-think 直出模式,AI 直接给答案,适合简单问答和日常对话,速度最快;在网页和 APP 上关闭深度思考即可。

Think High 是常规深度思考,AI 会在脑子里推导一遍再回答,适合需要分析计算的场景;

Think Max 则适合极难推理,但耗时更长,消耗的 token 大约是普通模式的两倍。思考的强度,由模型根据问题的复杂程度自动判断,或者使用者可以通过 API 参数手动指定为 High 或 Max。

定价方面,V4 延续了 DeepSeek 一贯的激进风格。

V4-Pro 每百万 token 输入 1 元(缓存命中)或 12 元(缓存未命中),输出为 24 元;V4-Flash 为每百万 token 输入 0.2 元(缓存命中)或 1 元(缓存未命中),输出为 2 元。

粗算下来,DeepSeek 的定价大约是竞品的三分之一甚至更低。另外,V4 同时支持 OpenAI 和 Anthropic 两种 API 接口格式,对开发者来说,切换只需要改一个参数,迁移成本几乎为零。

02.三个场景实测:长文本、写代码、复杂推理

在实际使用中,V4 表现如何?我们围绕三个高频使用场景对其展开测试:长文本处理、代码生成与调试和复杂推理。

场景一:长文本处理

长文本处理是 V4 此次核心卖点,我们直接选用某上市公司 2025 财年年度报告作为测试材料。这份年报篇幅为 324 页,涵盖财务报表、附注及股东信息等多个模块,信息密度高、数据分散,是测试长文本理解能力的理想素材。

我们的测试问题分两层:第一层要求提炼年报核心要点;第二层追问两个藏在文档深处的具体数据——该年度回购股份的总数量与总对价,以及管理人员酬金排名第三的具体人员与金额。这两个问题的答案分别散落在年报第 212 至 213 页和第 311 至 313 页,位置偏后,必须完整阅读文档才能准确定位。

V4 响应时间约 19 秒,给出的答案完全符合原报告。

此外,在追加提问短期银行借款利率区间时,我们关闭了 " 深度思考 ",选择 Non-think 模式,V4 同样准确找到年报数据,信息来源同样精确到页码。

从整体表现来看,快速模式下 V4 对这份 300 余页年报的处理相当稳定。数据定位准确、跨章节关联清晰、单位换算无误,且在回答过程中主动识别了潜在的口径歧义并加以说明,并没有因为文档体量大而出现答非所问或信息遗漏的情况。

对于需要快速从大体量文档中提取特定数据,V4 的长文本处理能力已经达到了实际可用的水准,且在快速模式下便能完成,不需要开启深度思考来换取准确性。

场景二:代码生成与调试

这一场景我们分两步进行测试:

第一步,让 V4 生成一段含有隐藏 Bug 的 Python 代码,要求故意埋入 2 至 3 个常见错误但不提示位置;

第二步,将这段代码重新交回 V4,要求找出所有问题、修复代码并逐一解释原因。两轮分别在开启和关闭深度思考的模式下各跑一次。

开启深度思考模式响应时间 15 秒。V4 在思考过程中主动梳理了代码的所有潜在问题,最终给出了 6 项错误分析,超出原题预设的 2 至 3 个范围。除了最核心的数据类型错误和文件未正确关闭之外,还额外识别出除零错误、列名不存在时的 KeyError 等。

关闭深度思考模式明显更快,直接输出结果,没有可见的思考过程。识别出的问题同样是文件未正确关闭、列数据类型错误、除零错误、列名不存在等,与开启深度思考的核心结论基本一致。

对于不懂代码的用户来说,日常的代码调试任务,关闭深度思考已经足够可用,速度也更快;如果是生产环境的代码审查,或者需要考虑各种异常边界,开启深度思考会给出更完整的分析。

场景三:复杂推理与分析

对于复杂推理测试,我们设定为一家中高端护肤品公司的经营困境分析:三年收入年均增长 18%,但净利润率从 12% 腰斩至 6%,同时面临库存积压、营销费用失控、电商渠道落后和竞争对手低价抢市等多重压力。

要求 V4 以商业顾问身份,识别核心问题、按紧迫程度列出三个优先风险并说明判断依据,随后在同一对话中追问:若公司决定优先发力电商渠道,可能面临哪些新风险。

深度思考响应用时 9 秒。V4 在思考过程中先完成了问题拆解:将所有负面信号归类为现金流威胁、盈利能力恶化、市场结构性风险三个维度,再依据 " 若不立即处理会导致现金流断裂或持续亏损 " 的紧迫性标准完成排序,逻辑链条清晰可见。

最终它给出的三个优先风险依次是:库存积压与现金流风险排第一; 盈利能力持续恶化排第二,中端市场被抢占与渠道结构性短板排第三,并均给出了充分理由。

为了验证连续推理能力,我们追问发力电商渠道的风险,响应用时仅 3 秒,直接在第一轮建立的背景基础上继续推导,V4 识别出五项新风险。

关闭深度思考后结果也差不多,不过结论呈现上更结构化,增加了 " 止损时间窗口 ",落地感更强,某种程度上比深度思考版本更像一份可以直接拿去汇报的分析文件。

这一轮测试最值得关注的有两点:一是推理的连贯性。前后两轮的分析形成了完整的逻辑链;二是结论的落地性。风险分析不停留在 " 可能会有影响 " 的泛泛层面,每条都给出了具体的传导路径。

比如它指出高端产品依赖线下 BA 服务和专柜体验来支撑溢价,一旦在电商大力促销,消费者会形成 " 不降价就不买 " 的预期,进而打击线下门店的正价销售能力,最终形成恶性循环。测试结果显示出推理逻辑连贯性和缜密性。

03.V4 的真正影响力,在模型之外

DeepSeek 主动说自己 " 落后 3 到 6 个月 ",这不是谦虚。DeepSeek 的牌是开源、是价格,承认差距,反而让这张牌打得更稳。

一位长期关注大模型领域的从业者对「AIX 财经」称," 当一个开源模型把百万上下文变成标配、把 API 价格打到竞品的三分之一,你会发现闭源模型的护城河其实没有想象中那么宽。"V4 最大的价值是让用户在成本可控的前提下,把很多以前想做但做不起的功能做出来了。

也因此,开源加低价,可能会动摇整个行业的定价逻辑。

对普通用户和中小开发者来说,顶级推理能力的使用门槛被大幅拉低。以前要用上好模型,要么付高额订阅,要么承受居高不下的 API 成本,现在这个壁垒被打薄了;对大厂来说,当一个性能接近的开源模型以极低价格提供服务,闭源模型的溢价空间会被持续压缩,而且这个压力是长期的,不会因为下一个版本发布就消失。

此外,V4 技术报告里,首次把华为昇腾和英伟达 GPU 并列写进了硬件验证清单。

更值得注意的是,V4 选用的 FP4 精度格式,恰好是华为今年新发布昇腾 950 芯片原生支持的精度,两者之间的适配不是巧合。DeepSeek 官方表示,等下半年昇腾 950 超节点批量上市之后,V4-Pro 的价格还会继续大幅下调。

在英伟达出口管制持续收紧的背景下,这次技术协同释放的信号很清晰:DeepSeek 在主动构建一条不依赖英伟达的算力通道。这件事的战略意义,比 V4 本身的产品发布要深远得多。

上述从业者称,昇腾这条线如果真的跑通,对整个国内 AI 生态意义巨大,现在大家都在英伟达这根管子上排队,一旦有一套可以平替的硬件基础设施成熟起来,算力的定价权和供给稳定性都会发生根本变化。DeepSeek 愿意在技术报告里公开背书昇腾,这个动作本身就不是普通的商业合作,更像是一个方向性的表态。

下半年随着昇腾 950 上量、价格进一步下探,V4 的实际影响力可能才会真正显现。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论