6 月 23 日消息,在今日开幕的 2026 火山引擎 FORCE 原动力大会上,字节跳动正式发布豆包大模型 2.1 Pro(Doubao-Seed-2.1 Pro),并在现场公布了与 GPT-5.5、Claude-Opus-4.7、Gemini-3.1-Pro 等主流模型的基准测试对比数据。

豆包大模型 2.1 Pro 在多项编程相关基准测试中表现亮眼。

在 Terminal Bench 2.1 测试中,豆包 2.1 Pro 得分 71.0,接近 GPT-5.5 的 73.8,优于 Claude-Opus-4.7 的 71.7 和 Gemini-3.1-Pro 的 70.7。在 SciCode 科学代码测试中,豆包 2.1 Pro 以 59.8 的得分领先 GPT-5.5 的 58.4、Claude-Opus-4.7 的 56.4 和 Gemini-3.1-Pro 的 62.3(注:此处 Gemini 得分更高)。在 NL2Repo-Bench 测试中,豆包 2.1 Pro 得分 47.0,超过 GPT-5.5 的 45.1 和 Gemini-3.1-Pro 的 33.4。
不过在 SWE-Pro(软件工程)测试中,豆包 2.1 Pro 得分 57.5,落后于 GPT-5.5 的 58.6 和 Claude-Opus-4.7 的 64.3,但优于 Gemini-3.1-Pro 的 54.2。Program Bench 测试数据显示,豆包 2.1 Pro 为 0/1/50.25,GPT-5.5 为 0.5/5.5/65.90,Claude-Opus-4.7 为 0/2.5/52.05。
编程能力是此次 2.1 Pro 版本的重点升级方向。(AI 普瑞斯)


登录后才可以发布评论哦
打开小程序可以发布评论哦