实测DeepSeek V3.1，不止拓展上下文长度

DeepSeek V3.1和 V3 相比，到底有什么不同？

官方说的模模糊糊，就提到了上下文长度拓展至 128K 和支持多种张量格式，但别急，我们已经上手实测，为你奉上更多新鲜信息。

我们比较了 V3.1 和 V3，注意到它在编程表现、创意写作、翻译水平、回答语气等方面都出现了不同程度的变化。

不过要说最明显的更新，大概是 DeepSeek 网页端界面的【深度思考 ( R1 ) 】悄悄变成了【深度思考】。

手机端还在慢慢对齐（笑）

开学考试现在开始

鉴于现在网页端已全部替换成了 V3.1，我们通过阿里云调用了 DeepSeek V3 的 API（最大上下文长度还是 65K）作为对比。

马上就是开学季，我们给二个版本的模型出了一套 " 试卷 "，从以下五个 " 学科 " 进行测试：

计算机：编程能力

语文：情境写作

数学：理解应用

外语：翻译水平

拓展：冷门知识

让我们一起看看它们表现如何 ~

编程能力

在更新前，我曾向 DeepSeek V3 问过这样的问题：

帮我用 python 写一段代码，把输入的 gif 图压缩到 10M 以下。

它的回答如下（图片可上下滑动）。

更新后，问 V3.1 同样的问题，则得到了这样的结果：

很直观地就能感受到，相比起 V3，V3.1 要更加全面，考虑到了更多的可能性（比如使用更激进的压缩策略，以及检查原文件是否是 GIF 格式）。

还 " 手把手 " 地给出了这段代码的使用说明，需要提前安装必要的依赖库，怎么使用命令行……甚至还有工作原理。

没有优化建议，大概是因为它觉得已经足够了吧（？）

拿之前在世界机器人大会上拍摄的众擎机器人作为示例，原文件大小为 18.3MB，用 V3 给出的代码，压缩后依然大于 10MB，如果要满足条件的话还需要再压缩一次。

而 V3.1 给出的结果则直接 " 一步到位 "（代码针对 Jupyter 环境进行了一点小调整，逻辑不变），并输出了处理步骤：

最后的两张 GIF 图如下（上为 V3，下为 V3.1）：

可以看到上图的速度比下图要快一些。

情境写作

我们选择了今年上海卷高考作文的题目：

有学者用 " 专 "" 转 "" 传 " 概括当下三类文章：" 专 " 指专业文章；" 转 " 指被转发的通俗文章；" 传 " 指获得广泛传播的佳作，甚至是传世文章。他提出，专业文章可以变成被转发的通俗文章，而面对大量 " 转 " 文，读者又不免期待可传世的文章。由 " 专 " 到 " 传 "，必定要经过 " 转 " 吗？请联系社会生活，写一篇文章，谈谈你的认识与思考。要求：（1）自拟题目；（2）不少于 800 字。

输出结果如下，可左右滑动对比，左边为 V3，右边为 V3.1：

两个版本在文字风格上具有很大的不同，从 V3 理性（人机味）的平铺直叙，到 V3.1 文艺（情绪化）的诗意表达，看起来像理科生和文科生的区别。

如果你是主考官，会更喜欢哪一篇呢？

理解应用

考验模型的数学能力，光问 "9.11 和 9.8 哪个大 " 这种对于实际用户没什么帮助的题目还是有点不够看。

高考数学题按理来讲应该是能做对的吧？

以下是今年数学全国一卷的第 3 题，考的是双曲线。

若双曲线 C 的虚轴长为实轴长的√ 7 倍，则 C 的离心率为？

答案是 2 √ 2，两个版本的模型都得到了正确结果，但在呈现上有所不同。

翻译水平

我们向 V3 和 V3.1 输入了同一篇生物学论文的摘要（含专有名词），并要求它们将其翻译成中文。

摘要选自 Nature 最新研究：《独特毛颚动物体型的基因组起源》。

两个版本模型的输出结果如下：

可以看出，相比起 V3 喜欢用括号来补充说明，V3.1 对长难句的理解程度更高；但 V3.1 出现了没有翻译出 several 这种简单词的情况。

冷门知识

结合同事的专业和最近在小红书上刷到的内容，我们问了一个比较 " 偏门 " 的问题：

构树的单个果实（不是由花序组成的聚花果）是核果还是瘦果？

这个问题的答案在不同教材上存在分歧，V3 和 V3.1 分别给出了以下回答，均认为其属于核果：

神奇的是 V3.1 依然存在使用 conclusion 替代 " 结论 " 这样的表述，以及对于 " 为什么会想到瘦果 " 这个问题的回答偏题到该果实属于聚花果的方向了。

顺便一提，小红书的博主通过解剖实验，认为其属于瘦果。

对这个结论感兴趣的朋友可以去小红书上搜索一下。

非推理模型 SOTA

网友们对这次更新颇为关心，即使还未发布模型卡，就在抱抱脸上成为了第四的热门话题。

截至发稿已荣登第二。

网友们也在使用后得到了一些有趣的发现。

Reddit 就有人测试，DeepSeek V3.1 在 aider 上得分 71.6%，拿下了非推理模型的 SOTA。

这是什么概念——有网友解释到，这意味着它比 Claude Opus 4 得分多 1%，但价格便宜 68 倍。

也有人在 SVGBench 基准上发现：V3.1 的表现 >V3.1（思考）>R1 0528。

这可能和 V3.1 的配置有关？

有网友察觉到它增加了四个特殊的 token，并注意到现版本的 V3.1 在关闭搜索状态下也会自动搜索。

此外，它的物理理解能力似乎有所提升，下面两个 GIF 图分别是 V3.1 和 V3 对于 " 在旋转六边形内弹跳的球 " 的呈现。

但也有人发现了一些问题，多与线上 API 相关……嗯，已经有人开骂了。

不过，最让人好奇的是，V3.1 发布了，R2 呢？

参考链接：

[ 1 ] https://x.com/deepsseek/status/1957886077047566613

[ 2 ] https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

[ 3 ] https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/

[ 4 ] https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

8 月 22 日本周五，下午 14 点，量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee，一同来聊AI Agent，怎么搞投资？

！面对面交流 AI Agent、金融投资与 AI 创业

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签