三易生活 02-25
Anthropic发布全球首个混合推理模型及编程工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,Anthropic 方面发布新一代大模型 Claude 3.7 Sonnet,并表示这是其迄今为止最智能的模型。据了解,目前所有用户均已可以在 Claude App 中免费体验 Claude 3.7 Sonnet,同时开发者可通过 API 调用 Claude 3.7 Sonnet。其定价与前代产品 Claude 3.5 Sonnet 相同,输入为每百万 token 收费 3 美元,输出每百万 token 收费 15 美元。

Anthropic 方面强调,Claude 3.7 Sonnet 还是全球首个混合推理模型。这就意味着 Claude 3.7 Sonnet 既是一个普通的大模型,也是一个推理模型,既能快速响应、也可进行深度思考。作为对比,OpenAI、DeepSeek 等公司的 o1、DeepSeek-R1 等推理模型,则均以独立形式提供。

具体而言,在 " 一个模型,两种思考方式 "(One model, two ways to think)设计理念的加持下,Claude 3.7 Sonnet 为用户提供标准和扩展(Extended Thinking)两种思考模式,使得用户可根据需求灵活选择模型的响应方式。

其中在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版,能够近乎即时地快速回答用户输入的问题。而在扩展模式下,Claude 3.7 Sonnet 可生成经过深度思考的推理结果,并展示思考过程的详细步骤。

据悉,针对使用 API 调用模型能力的开发者,Anthropic 还开放了 " 思考预算 ( budget for thinking ) " 功能,允许其精细控制 Claude 3.7 Sonnet 的思考时间。换而言之,开发者可以根据任务的复杂程度和对结果质量的要求,设定 Claude 3.7 Sonnet 思考的 tokens 上限 ( 最高可达 128K tokens 输出限制 ) ,从而在速度、成本和答案质量之间自由调优。

对此,Anthropic 联合创始人兼首席科学官 Jared Kaplan 在接受媒体采访时表示," 这个模型融合了所有功能,我们的目标是拥有一个统一的 AI,能适用于各种场景。这样对我们的客户而言会更简单一些 "。同时他还认为,包括 OpenAI 等在内的竞争对手很快也会转向此种混合模型的方向。

性能方面,据悉 Claude 3.7 Sonnet 在编码和前端网络开发领域表现突出。早期测试显示,其在处理复杂代码库和使用高级工具方面展现出显著优势,编码能力全面超越其他现有模型。

此外在 SWE-bench Verified ( 软件工程基准测试 ) 中, Claude 3.7 Sonnet 以 70.3% ( 使用定制 scaffold ) 和 62.3% ( 标准 scaffold ) 的成绩,超越了 o1、DeepSeek R1。 在 TAU-bench ( 智能体工具使用基准测试 ) 中,Claude 3.7 Sonnet 在零售 ( retail ) 和 航空 ( airline ) 两个场景中分别取得了 81.2% 和 58.4% 的成绩,超越 o1。

值得一提的是,除了 Claude 3.7 Sonnet 之外,同期 Anthropic 方面还发布了首款智能编程工具 Claude Code。据了解,Claude Code 能够主动与人协作,具有搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至 GitHub,以及使用命令行工具等功能。

Anthropic 方面强调,Claude Code 在测试、复杂问题调试和大规模重构等场景中表现突出。早期测试结果显示,Claude Code 能够在 " 单次操作中完成通常需要 45 分钟以上的手动工作 ",显著缩短开发时间和成本。

此外 Anthropic 方面还指出,在接下来的几周里,计划根据使用情况不断改进 Claude Code,其中包括提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果等。但需要注意的是,目前 Claude Code 仅作为有限的研究预览版提供。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论