量子位 02-28
刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

GPT-4.5正式发布,号称 OpenAI最大最好的聊天模型。

但很意外啊,这么大的事奥特曼都不来。

这次 OpenAI 也不打算秀炫酷的解题,也不打算晒各种榜单的排名,反而强调起了情商。

第一个现场演示:

" 我又被朋友鸽了,帮我写个短信告诉他们我恨他们。"

o1 意识到这样会 " 友尽 ",但也只是很忠实的按要求完成了任务。‍

GPT-4.5 甚至都没完成提示词中的任务,但整个互动显得更自然了:

先识别出用户很烦恼

建议更清楚的表达自己的情绪

给出两种备选方案‍‍‍

再询问用户是否坚持原来的要求

第二个现场演示,强调 GPT-4.5 掌握更多世界知识,以及讲述知识的方式更自然。

解释为什么海水是咸的。

GPT-4 Turbo 掌握很多知识,但回答就像是在炫耀它很有知识,只是把事实罗列在一起。

同样这些知识,GPT-4.5 的语气更有互动感,还考虑到用一句简洁的开场,让用户更容易记住三个关键词。

面对更专业的问题 " 用第一性原理解释 AI 对齐的必要性 ",o1 的回答像是写论文,而 GPT-4.5 通过 " 第 1 步、第 2 步、第 3 步…… " 来引导用户思考这个问题。

除了演示之外,直播中也透露了 GPT-4.5 开发过程的一些内幕:

如 " 激进地 " 使用了低精度训练,预训练阶段跨多个数据中心完成。GPT-4.5 会成为未来推理模型的基础模型

从今天起,GPT-4.5 开放给 200 美元一个月的 Pro 用户。下周逐步开放给 20 美元一个月的 Plus 用户。

不是最前沿,但是最大模型

技术报告中表示:GPT-4.5 不是一个前沿模型,但它是 OpenAI 最大的语言模型,比 GPT-4 的计算效率提高了 10 倍以上。

OpenAI 称通过扩展无监督学习和推理提升 AI 的能力。

GPT ‑ 4.5 通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。

在衡量 LLM 事实准确性的 SimpleQA 基准上,GPT-4.5 准确率 62.5%,幻觉率 37.1%,比 GPT-4o、o1、o3mini 优化了不少。

以下是一个具体的幻觉降低的案例。

假如用户询问 " 第一种语言是什么 ",GPT-4.5 会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。

此外,Blog 中还称开发了新的可扩展的技术,能够利用从小型模型衍生出的数据来训练更大更强的模型,由此提升了 GPT ‑ 4.5 的可操控性、对细微差别的理解以及自然对话能力。

在人类偏好评估中,测试者更倾向于选择 GPT ‑ 4.5 而非 GPT ‑ 4o。

OpenAI 表示,GPT ‑ 4.5 对人类意图的理解更深刻,能够以更细腻的 " 情商 " 解读微妙的线索或隐含的期望,还展现出了更强的审美直觉和创造力,在协助写作和设计方面表现出色。

比如,当用户表达 " 考试不及格、很难过 ",它会安慰、鼓励用户。作为对比,4o 给出的回答就更加冰冷,没什么安慰的话语。

在一些回复上,GPT ‑ 4.5 对比 4o 回答也更简洁。

另外,OpenAI 还晒出了 GPT ‑ 4.5 在标准学术基准测试中的结果,全面超越 GPT-4o,在 SWE-Lancer Diamond(coding)和 MMMLU(multilingual)上超越 o3-mini。

API 定价非常贵

值得一提的是,GPT-4.5 的 API 定价非常贵。

75 美元 / 百万 tokens 输入、150 美元 / 百万 tokens 输出。

对比 GPT-4o,定价高出去 15-30 倍。

到底这个价格值不值呢?不少人已经分享了抢先体验的效果。

拿到内测的博主表示,实际使用中 GPT-4.5 非常有创造力、一定上了很多人文课。

Claude 3.7 和 GPT-4.5 两个,非常相似。

他还列举了 GPT-4.5 视觉理解能力很强的例子。它能从这张星露谷截图中发现非常小的元素蝴蝶。

" 独角兽评估 " 的实测表现也很好。

后续随着更多实测放出,应该还能看到更多有意思的例子。

One More Thing

最后,大家一定很关心,奥特曼去哪了呢?

在医院照顾小孩。

是的,他最近刚刚喜提一子。

直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8

参考链接:https://openai.com/index/introducing-gpt-4-5/

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 数据中心
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论