字节跳动正式发布豆包大模型2.1Pro

6 月 23 日消息，在今日开幕的 2026 火山引擎 FORCE 原动力大会上，字节跳动正式发布豆包大模型 2.1 Pro（Doubao-Seed-2.1 Pro），并在现场公布了与 GPT-5.5、Claude-Opus-4.7、Gemini-3.1-Pro 等主流模型的基准测试对比数据。

豆包大模型 2.1 Pro 在多项编程相关基准测试中表现亮眼。

在 Terminal Bench 2.1 测试中，豆包 2.1 Pro 得分 71.0，接近 GPT-5.5 的 73.8，优于 Claude-Opus-4.7 的 71.7 和 Gemini-3.1-Pro 的 70.7。在 SciCode 科学代码测试中，豆包 2.1 Pro 以 59.8 的得分领先 GPT-5.5 的 58.4、Claude-Opus-4.7 的 56.4 和 Gemini-3.1-Pro 的 62.3（注：此处 Gemini 得分更高）。在 NL2Repo-Bench 测试中，豆包 2.1 Pro 得分 47.0，超过 GPT-5.5 的 45.1 和 Gemini-3.1-Pro 的 33.4。

不过在 SWE-Pro（软件工程）测试中，豆包 2.1 Pro 得分 57.5，落后于 GPT-5.5 的 58.6 和 Claude-Opus-4.7 的 64.3，但优于 Gemini-3.1-Pro 的 54.2。Program Bench 测试数据显示，豆包 2.1 Pro 为 0/1/50.25，GPT-5.5 为 0.5/5.5/65.90，Claude-Opus-4.7 为 0/2.5/52.05。

编程能力是此次 2.1 Pro 版本的重点升级方向。（AI 普瑞斯）

宙世代

一起剪

相关标签