Anthropic发布全球首个混合推理模型及编程工具

日前，Anthropic 方面发布新一代大模型 Claude 3.7 Sonnet，并表示这是其迄今为止最智能的模型。据了解，目前所有用户均已可以在 Claude App 中免费体验 Claude 3.7 Sonnet，同时开发者可通过 API 调用 Claude 3.7 Sonnet。其定价与前代产品 Claude 3.5 Sonnet 相同，输入为每百万 token 收费 3 美元，输出每百万 token 收费 15 美元。

Anthropic 方面强调，Claude 3.7 Sonnet 还是全球首个混合推理模型。这就意味着 Claude 3.7 Sonnet 既是一个普通的大模型，也是一个推理模型，既能快速响应、也可进行深度思考。作为对比，OpenAI、DeepSeek 等公司的 o1、DeepSeek-R1 等推理模型，则均以独立形式提供。

具体而言，在 " 一个模型，两种思考方式 "（One model, two ways to think）设计理念的加持下，Claude 3.7 Sonnet 为用户提供标准和扩展（Extended Thinking）两种思考模式，使得用户可根据需求灵活选择模型的响应方式。

其中在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版，能够近乎即时地快速回答用户输入的问题。而在扩展模式下，Claude 3.7 Sonnet 可生成经过深度思考的推理结果，并展示思考过程的详细步骤。

据悉，针对使用 API 调用模型能力的开发者，Anthropic 还开放了 " 思考预算 ( budget for thinking ) " 功能，允许其精细控制 Claude 3.7 Sonnet 的思考时间。换而言之，开发者可以根据任务的复杂程度和对结果质量的要求，设定 Claude 3.7 Sonnet 思考的 tokens 上限 ( 最高可达 128K tokens 输出限制 ) ，从而在速度、成本和答案质量之间自由调优。

对此，Anthropic 联合创始人兼首席科学官 Jared Kaplan 在接受媒体采访时表示，" 这个模型融合了所有功能，我们的目标是拥有一个统一的 AI，能适用于各种场景。这样对我们的客户而言会更简单一些 "。同时他还认为，包括 OpenAI 等在内的竞争对手很快也会转向此种混合模型的方向。

性能方面，据悉 Claude 3.7 Sonnet 在编码和前端网络开发领域表现突出。早期测试显示，其在处理复杂代码库和使用高级工具方面展现出显著优势，编码能力全面超越其他现有模型。

此外在 SWE-bench Verified ( 软件工程基准测试 ) 中， Claude 3.7 Sonnet 以 70.3% ( 使用定制 scaffold ) 和 62.3% ( 标准 scaffold ) 的成绩，超越了 o1、DeepSeek R1。在 TAU-bench ( 智能体工具使用基准测试 ) 中，Claude 3.7 Sonnet 在零售 ( retail ) 和航空 ( airline ) 两个场景中分别取得了 81.2% 和 58.4% 的成绩，超越 o1。

值得一提的是，除了 Claude 3.7 Sonnet 之外，同期 Anthropic 方面还发布了首款智能编程工具 Claude Code。据了解，Claude Code 能够主动与人协作，具有搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至 GitHub，以及使用命令行工具等功能。

Anthropic 方面强调，Claude Code 在测试、复杂问题调试和大规模重构等场景中表现突出。早期测试结果显示，Claude Code 能够在 " 单次操作中完成通常需要 45 分钟以上的手动工作 "，显著缩短开发时间和成本。

此外 Anthropic 方面还指出，在接下来的几周里，计划根据使用情况不断改进 Claude Code，其中包括提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果等。但需要注意的是，目前 Claude Code 仅作为有限的研究预览版提供。

【本文图片来自网络】

宙世代

一起剪

相关标签