硅星人Pro 06-21
OpenAI劲敌丢炸弹,新一代大模型性能超越GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天,OpenAI 劲敌 Anthropic 忽然丢炸弹,发布下一代旗舰大模型 Claude 3.5 Sonnet。

3 个月前 Claude 3 曾艳压全场,首次让大批用户有了超越 GPT-4 的推背体验。这次作为最新升级,也是即将推出的 Claude 3.5 全系列中首个版本,Anthropic 更是自豪地称 Claude 3.5 Sonnet 已领跑全行业智能水准,不仅在广泛评估中胜过 GPT-4o 等一众竞争对手,也保持了中端模型 Sonnet 的最优性价比。

价格上,Claude 3.5 Sonnet 每百万输入 3 美元,每百万输出 15 美元,只有上一代超大杯 Opus 的 1/5,运行速度却是它的两倍,并拥有 20 万 token 上下文窗口。

现在所有用户都可以登录 Claude.ai 和移动客户端免费体验新模型,订阅用户将获得更高访问权限(官方称比免费版 5 倍好用)。也可以通过 Anthropic API、Amazon Bedrock 等平台获得。

一向眼疾手快的 Poe 表示,已经安排上了。

一、速度翻倍,写作更自然、编程更智能

具体来看性能表现。Claude 3.5 Sonnet 在研究生级推理能力(GPQA)、本科生级知识(MMLU)和编程能力(HumanEval)方面树立了新的行业基准。在把握语义的细微差别、幽默和复杂指令上有显著改进,能以更自然、亲和的语气输出高质量的写作内容。

代码方面表现优异。在团队考察 AI 能否根据文字需求改进代码的内部编程测试中,Claude 3.5 Sonnet 成功解决了 64% 的问题,而 Claude 3 Opus 只解决了 38%。研究人员发现,只要给 Claude 3.5 Sonnet 清晰的指令和必要工具,它就能独立编写、编辑和执行代码,并具备复杂推理和故障排除能力。并能轻松处理代码翻译,特别适合更新遗留应用程序和迁移代码库。

Anthropic 开发者关系工程师 Alex Albert 表示,Claude 在编写代码和自主修复 pull requests 方面变得非常出色。" 显然,一年之后,大部分代码将由大语言模型编写。"

他在日常工作中发现,代码测试和修复通常比编写本身更花时间。此时 Cloud 3.5 Sonnet 可以充当一个成熟的编程代理。Albert 在视频中展示了如何在最少输入和没有互联网访问的沙盒环境下,借助 Claude 将一个裁切圆形头像的 bug 函数修复,并转变为一个包括单元测试在内的功能齐全的实现。

二、最强视觉模型,解放生产力

此次 3.5 Sonnet 在视觉能力上也实现了巨大突破,是 Anthropic 迄今为止最强大的视觉模型

它在解释图表、图形等视觉推理任务中改进明显。可以准确地从粗略图像中转录文本,并输出更多洞察,这也是零售、物流和金融服务等领域的核心能力。

示例视频中,用户表示要做一个人类基因组的班级演讲。给出一张测序里程碑时间线图片和一个测序成本随时间变化的图表,要求 Claude 3.5 Sonnet 把图中数据转录成 JSON 格式。Claude 3.5 Sonnet 马上从图中抓取数据,创建了两个主要数组的 JSON 结构。接着根据进一步指令,将两个数组相结合创建了一个交互式 Plotly.js 图表。最后继续出大招,把完整的演讲 demo 给搞定了。

图像信息提取和转录、数据结构化、上下文理解、用户协作 ……Claude 3.5 Sonnet 完美示范了什么叫解放生产力。再加上速度提升和成本效益,使它成为处理例如上下文敏感的客户支持、协调多步骤工作流程等复杂任务的理想选择。

三、引入新功能 Artifacts,实时查看任务的小监视器

此外另一个亮点是在 Claude.ai 上引入 Artifacts 预览版。

这也是此前一直强调模型安全和底层研究的 Anthropic,在产品交互上的一次大更新。

这是一项扩展用户与 Claude 互动方式的新功能。当要求 Claude 生成代码、文本或网站设计等内容时,Artifacts 会出现在对话旁边的专用窗口中,供用户实时查看、编辑和构建 Claude 的创作。相当于形成了一个动态工作空间,将 AI 生成的内容更无缝集成到自己的项目和工作流程中。

Anthropic 称,这项功能标志着 Claude 从对话式 AI 向协作工作环境的演变。这只是 Claude.ai 更广泛愿景的开始,不久的将来将扩展到支持团队协作。最终甚至整个组织都能够在同一个共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude 将作为一个随时待命的队友。

这乍听有点像微软的团队助手 Team Copilot。但 Team Copilot 管理会议、分配任务、记录笔记等的定位类似一个项目经理;Claude 则听起来更像把团队请进一间屋子舒服地坐着,动动手指,一起观看 Claude" 为打工人打工 "。

四、Anthropic:我每隔几个月就会厉害一次

作为一家主打安全的 AI 公司,Anthropic 当然也用大量篇幅强调新一代模型经过了严格的安全测试。

抱着每隔几个月就大幅改善智能、速度和成本之间的权衡曲线的目标,Anthropic 还表示将在今年晚些时候发布同系列的另两个成员:Claude 3.5 Haiku 和 Claude 3.5 Opus。除此以外,公司也在开发新的模态和功能,以支持更多的企业用例。

自从今年 3 月初发布 Claude 3 系列以来,Anthropic 久未有大动作。上次被社区热议还是 Jan Leike 和 Sam Altman 闹翻,从 OpenAI 激情离职加入 " 我方阵营 " 的时候。

Jan Leike 在社交平台表示,自己已加入 Anthropic 继续大模型可解释性和超级对齐研究。

此次 Claude 3.5 Sonnet 发布,Jan Leike 也继宣告入职消息后首次发文站台。

" 我喜欢新的 Sonnet。我经常让它为我解释机器学习论文。虽然不总是百分百准确,但可能比我粗略阅读要好,而且速度快得多。自动化的对齐研究正在越来越接近现实 ……"

鉴于昨天 Ilya Sutskever 宣布成立新公司的消息,也有八卦的网友问," 是什么让你选择加入 Anthropic 而不是 SSI?"

一位用户实测让 Claude 3.5 Sonnet 创建一个能在短时间内玩的原创游戏。它随即设计了 "Color Cascade",一个需要从一系列掉落的形状中抓住正确颜色的游戏。这名用户表示,感受到了 AGI 的味儿。

Perplexity CEO Aravind Srinivas 也发文说,Claude 3.5 Sonnet 现已对平台订阅用户开放。在 Perplexity 内部评估中,它取得了比 GPT-4o 更高的分数。

不过也有人发现了华点:

当然,这凑巧只是某位 Anthropic 测试员工的名字。但典中典已成,另外一位在 Anthropic 做 AI 对齐的 Sam Bowman 回复说:" 我想我们整代人中大约有三分之一都叫 Sam。Anthropic 至少有十几个叫这个名字的,包括联合创始人在内。"

原来世界是一个巨大的 Sam。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

编程 炸弹 amazon 翻译 本科生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论