智东西
作者 | 陈骏达
编辑 | 李水青
DeepSeek 又更新了!
智东西 9 月 22 日报道,今天晚间,DeepSeek 在其官方 API 平台发布了最新升级的 DeepSeek-V3.1-Terminus 模型(Terminus 拉丁语意为终点、界限),并在不久后宣布模型开源。
官方文档中称,DeepSeek-V3.1-Terminus 在保持模型原有能力的情况下,改进了语言一致性、偶发异常字符等 DeepSeek-V3.1 上线后出现的 Bug,还进一步优化了编程和搜索智能体的表现。
DeepSeek 官方在微信公众号放出了新旧 DeepSeek-V3.1 的基准测试对比。可以看到,在非 Agent 类的基准测试中,DeepSeek-V3.1-Terminus 比 DeepSeek-V3.1 实现了 0.2%-36.5% 不等的表现提升,不过也有些测试成绩出现小幅度下滑。
DeepSeek-V3.1-Terminus 在 HLE(人类终极测试)上的性能提升最为明显,这一测试主要考察专家级的高难度知识和模型的多模态、深度推理等能力。
而在 Agent 测评中,DeepSeek-V3.1-Terminus 网页浏览、简单问答和多项编程测试中的表现出现小幅提升。
DeepSeek 官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。智东西第一时间调用 DeepSeek-V3.1-Terminus 的 API 进行了体验,尝试复现此前的多个 Bug,并体验模型的最新性能。
开源地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
一、两大神秘 Bug 消失,DeepSeek-V3.1 终于不犯糊涂了
今年 8 月,DeepSeek-V3.1 上线后,有用户反馈在用 API 调用模型时,会偶尔出现一个严重 Bug:模型会不受控地随机输出 " 极 "、" 極 "、"extreme" 等字样,严重影响日常使用,如果未经仔细检查就使用含有这一 Bug 的代码,很可能导致编译失败。
DeepSeek-V3.1 的 " 极 " 字 Bug(图源:知乎 @Fun10165)
智东西调用了最新的 DeepSeek-V3.1-Terminus API,尝试复现上述问题。网传能复现这一问题的 " 高危 " 提示词包括要求模型写 Go 语言、完成版本号相关任务、处理时间等。
不过,DeepSeek-V3.1-Terminus 在测试中并未因上述提示词而出现 Bug,也就是说,这一问题应该已经被修复了。
DeepSeek-V3-Terminus 没有因 " 高危 " 提示词而产生 Bug
也有海外用户反映,此前的 DeepSeek-V3.1 存在多语言的问题,尤其是在翻译小语种时。这位 Reddit 网友分享,DeepSeek 会把中、英、俄三种语言混用,问题文本的比例有时能达到 5%。
网友分享 DeepSeek-V3.1 多语言混用问题(图源:Reddit @Kitano_o)
智东西尝试着让 DeepSeek-V3-Terminus 将这句话翻译为 7 种小语种:" 人工智能正在改变我们的世界,它带来了巨大的机遇,也需要我们认真思考其挑战。"
DeepSeek-V3-Terminus 的回答没有出现语言混杂问题,看来这一 Bug 也被修复了。
二、小球弹跳效果惊艳,还能快速交叉搜索信息
除了 Bug 的修复之外,DeepSeek-V3.1-Terminus 还有一大值得关注的地方是其编程和搜索智能体能力的提升。
编程任务上,智东西让 DeepSeek-V3.1-Terminus 尝试了小球弹跳,结果如下。模型输出的网页采用了简约风格,不过,模拟的重力、摩擦力效果十分逼真。要打造这样的效果,模型不仅需要有很强的编程能力,也需拥有对物理学的理解能力。
这一模型打造的动画效果也不错,轨迹和碰撞都比较自然:
在搜索智能体能力方面,我们让 DeepSeek-V3.1-Terminus 推荐了几款适合新手阳台盆栽的植物。这一测试考察模型能否找出完全符合 " 阳台盆栽 "、" 生长快 "、" 可生食 "、" 对儿童安全 " 所有条件的植物。此外,模型也要交叉验证信息的可靠性,并进行整合提炼和风险提示。
可以看到,DeepSeek-V3.1-Terminus 给出的答案考虑十分周全,经人工核查事实无误,可读性也不错。
结语:DeepSeek-V3.1,迎来终极版?
DeepSeek-V3.1-Terminus 中的 "Terminus",在拉丁语里是 " 终点 " 或 " 界限 " 的意思,我们试着让 DeepSeek 自己对这一命名给出了解读。DeepSeek 称,这一命名可能象征着 DeepSeek-V3.1 是这个系列架构的终极版本,代表了当前技术路径的成熟和完善。
也有网友认为,Terminus 可能意味着模型在编程终端里的表现更好了。不过,正如 DeepSeek 所言,具体的命名寓意最好还是官方来解释更为准确。
此前,外网有媒体报道称,DeepSeek 今年年底即将推出 Agent 模型。或许,DeepSeek 的下一次重大更新,已经不远了。
登录后才可以发布评论哦
打开小程序可以发布评论哦