量子位 08-20
实测DeepSeek V3.1,不止拓展上下文长度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek V3.1和 V3 相比,到底有什么不同?

官方说的模模糊糊,就提到了上下文长度拓展至 128K 和支持多种张量格式,但别急,我们已经上手实测,为你奉上更多新鲜信息。

我们比较了 V3.1 和 V3,注意到它在编程表现、创意写作、翻译水平、回答语气等方面都出现了不同程度的变化。

不过要说最明显的更新,大概是 DeepSeek 网页端界面的【深度思考 ( R1 ) 】悄悄变成了【深度思考】。

手机端还在慢慢对齐(笑)

开学考试现在开始

鉴于现在网页端已全部替换成了 V3.1,我们通过阿里云调用了 DeepSeek V3 的 API(最大上下文长度还是 65K)作为对比。

马上就是开学季,我们给二个版本的模型出了一套 " 试卷 ",从以下五个 " 学科 " 进行测试:

计算机:编程能力

语文:情境写作

数学:理解应用

外语:翻译水平

拓展:冷门知识

让我们一起看看它们表现如何 ~

编程能力

在更新前,我曾向 DeepSeek V3 问过这样的问题:

帮我用 python 写一段代码,把输入的 gif 图压缩到 10M 以下。

它的回答如下(图片可上下滑动)。

更新后,问 V3.1 同样的问题,则得到了这样的结果:

很直观地就能感受到,相比起 V3,V3.1 要更加全面,考虑到了更多的可能性(比如使用更激进的压缩策略,以及检查原文件是否是 GIF 格式)。

还 " 手把手 " 地给出了这段代码的使用说明,需要提前安装必要的依赖库,怎么使用命令行……甚至还有工作原理。

没有优化建议,大概是因为它觉得已经足够了吧(?)

拿之前在世界机器人大会上拍摄的众擎机器人作为示例,原文件大小为 18.3MB,用 V3 给出的代码,压缩后依然大于 10MB,如果要满足条件的话还需要再压缩一次。

而 V3.1 给出的结果则直接 " 一步到位 "(代码针对 Jupyter 环境进行了一点小调整,逻辑不变),并输出了处理步骤:

最后的两张 GIF 图如下(上为 V3,下为 V3.1):

可以看到上图的速度比下图要快一些。

情境写作

我们选择了今年上海卷高考作文的题目:

有学者用 " 专 "" 转 "" 传 " 概括当下三类文章:" 专 " 指专业文章;" 转 " 指被转发的通俗文章;" 传 " 指获得广泛传播的佳作,甚至是传世文章。他提出,专业文章可以变成被转发的通俗文章,而面对大量 " 转 " 文,读者又不免期待可传世的文章。由 " 专 " 到 " 传 ",必定要经过 " 转 " 吗?请联系社会生活,写一篇文章,谈谈你的认识与思考。要求:(1)自拟题目;(2)不少于 800 字。

输出结果如下,可左右滑动对比,左边为 V3,右边为 V3.1:

两个版本在文字风格上具有很大的不同,从 V3 理性(人机味)的平铺直叙,到 V3.1 文艺(情绪化)的诗意表达,看起来像理科生和文科生的区别。

如果你是主考官,会更喜欢哪一篇呢?

理解应用

考验模型的数学能力,光问 "9.11 和 9.8 哪个大 " 这种对于实际用户没什么帮助的题目还是有点不够看。

高考数学题按理来讲应该是能做对的吧?

以下是今年数学全国一卷的第 3 题,考的是双曲线。

若双曲线 C 的虚轴长为实轴长的√ 7 倍,则 C 的离心率为?

答案是 2 √ 2,两个版本的模型都得到了正确结果,但在呈现上有所不同。

翻译水平

我们向 V3 和 V3.1 输入了同一篇生物学论文的摘要(含专有名词),并要求它们将其翻译成中文。

摘要选自 Nature 最新研究:《独特毛颚动物体型的基因组起源》。

两个版本模型的输出结果如下:

可以看出,相比起 V3 喜欢用括号来补充说明,V3.1 对长难句的理解程度更高;但 V3.1 出现了没有翻译出 several 这种简单词的情况。

冷门知识

结合同事的专业和最近在小红书上刷到的内容,我们问了一个比较 " 偏门 " 的问题:

构树的单个果实(不是由花序组成的聚花果)是核果还是瘦果?

这个问题的答案在不同教材上存在分歧,V3 和 V3.1 分别给出了以下回答,均认为其属于核果

神奇的是 V3.1 依然存在使用 conclusion 替代 " 结论 " 这样的表述,以及对于 " 为什么会想到瘦果 " 这个问题的回答偏题到该果实属于聚花果的方向了。

顺便一提,小红书的博主通过解剖实验,认为其属于瘦果

对这个结论感兴趣的朋友可以去小红书上搜索一下。

非推理模型 SOTA

网友们对这次更新颇为关心,即使还未发布模型卡,就在抱抱脸上成为了第四的热门话题。

截至发稿已荣登第二。

网友们也在使用后得到了一些有趣的发现。

Reddit 就有人测试,DeepSeek V3.1 在 aider 上得分 71.6%,拿下了非推理模型的 SOTA。

这是什么概念——有网友解释到,这意味着它比 Claude Opus 4 得分多 1%,但价格便宜 68 倍。

也有人在 SVGBench 基准上发现:V3.1 的表现 >V3.1(思考)>R1 0528。

这可能和 V3.1 的配置有关?

有网友察觉到它增加了四个特殊的 token,并注意到现版本的 V3.1 在关闭搜索状态下也会自动搜索。

此外,它的物理理解能力似乎有所提升,下面两个 GIF 图分别是 V3.1 和 V3 对于 " 在旋转六边形内弹跳的球 " 的呈现。

但也有人发现了一些问题,多与线上 API 相关……嗯,已经有人开骂了。

不过,最让人好奇的是,V3.1 发布了,R2 呢?

参考链接:

[ 1 ] https://x.com/deepsseek/status/1957886077047566613

[ 2 ] https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

[ 3 ] https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/

[ 4 ] https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 8 月 22 日本周五下午 14 点,量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee,一同来聊AI Agent,怎么搞投资?

 !面对面交流 AI Agent、金融投资与 AI 创业   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 机器人 翻译 阿里云 考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论