量子位 1小时前
刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

ChatGPT 默认模型,今天大升级。

新版本 GPT-5.5 Instant, 结合了 5.5 的基础智力 + 极速回复。

免费用户也能用。

最关键的四点:

幻觉减少了 52.5%。

新增 " 记忆来源 ",展示过去的哪条对话影响了本次回复。

答案更简洁:减少不必要的追问、省略多余的表情符号、避免繁复的格式。

更温暖、更自然的语气

奥特曼特别强调,如果你最近都只用深度思考模型了,不妨回来看看。

第一刀先砍幻觉

作为默认模型,最先要补的是更准确,少编。

与前代相比,GPT-5.5 Instant 在事实准确性方面有了显著提高,特别是医疗、法律和金融等高风险提示中,产生的虚假陈述减少了 52.5%。

在用户之前已标记为存在事实错误的棘手对话中,不准确陈述减少了 37.3%。

OpenAI 提供了一个代数问题作为示例:用户上传了一张手写方程式的照片,其中包含一个计算错误。

GPT-5.3 Instant 最初认同用户的解法,随后发现 x=3 不成立,却错误地得出结论:该方程式无解。

GPT-5.5 Instant 起初也认同用户的计算,但随后发现了用户重新排列方程式时的错误,并求解了修正后的二次方程。

这个变化放在默认模型上,意义更大。

因为很多人每天问 ChatGPT 的问题,正是合同、报销、病症解释、代码报错、作业思路。

这些场景里,模型一本正经讲错,比 " 不会 " 更麻烦。

基准测试结果也印证了这一点。在竞争激烈的数学测试 AIME 2025 中,准确率从 65.4% 升至 81.2%。

测试博士水平科学推理能力的 GPQA,准确率从 78.5% 提升至 85.6%。

解读和推理科学图表的基准测试 CharXiv 的准确率也从 75.0% 提升至 81.6%。

MMMU-Pro 测试用于衡量模型处理文本和图像中专家级问题的能力,其准确率从 69.2% 提升至 76.0%。

OmniDocBench 测试(用于从复杂文档中提取结构化数据)的错误率则从 14.6% 下降至 12.5%。

少说废话,也是一种能力

答得更准之后,还有另一个老问题。

答得太长。

这次 GPT-5.5 Instant 的风格变化,核心是更短更聚焦,但不丢实质信息。

以前同一个问题,有时候会先来一大段免责声明,再堆三层列表,最后还追问一句 " 你希望我继续吗 "。

现在 OpenAI 的说法是:减少过度格式化,减少不必要的追问,也减少没必要出现的表情符号。

在这个例子中,GPT-5.5 Instant 使用的单词数减少了 30.2%,行数减少了 29.2%。

把握了恰当的语气:非正式、实用且符合职场规范,避免了过度解释。

针对不同情况提供了可用的方案,而且对事不对人。

OpenAI 认为,GPT-5.3 Instant 给的答案更全面,尤其是在 " 不该做什么 " 部分,但对于一个非正式的建议提示来说,显得有些过于复杂,结构和润色可能超出了用户的实际需求。

记忆更强,但让你能控制。

GPT-5.5 Instant 更善于使用你已经给过 ChatGPT 的上下文。

包括连接的邮箱,过去的历史对话,上传过的文件。

关键它能判断什么时候这些上下文真的能让回答变好,而不是每次都硬套记忆。

这次 OpenAI 还引入了 " 记忆来源 " 功能,会向用户显示哪些记忆影响了本次回复。

如果某条记忆过时了,用户还可以更正或删除。

什么时候能用上?

GPT-5.5 Instant 从 5 月 5 日开始向所有 ChatGPT 用户滚动上线,替代 GPT-5.3 Instant 作为默认模型。

API 里对应的是 chat-latest。

旧模型不会立刻消失,付费用户还能在模型配置里继续访问 GPT-5.3 Instant 三个月,之后再退役

个性化增强功能会先向 Plus 和 Pro 用户的网页端推出,移动端随后上线。Free、Go、Business、Enterprise 会在后续几周扩展。

参考链接:

[ 1 ] https://openai.com/index/gpt-5-5-instant/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 AI 正在从少数人的工具,变成所有人的日常。

今年5 月 20 日,我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。

首波嘉宾阵容已公布昆仑万维方汉智谱吴玮杰EverMind 邓亚峰风行在线易正朝百度秒哒朱广翔Fusion Fund 张璐香港大学黄超MarsWave 冯雷都来了,了解详情

邀请你和我们一起,不再只是讨论 AI 的未来,而是现在就用起来。 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 准确 医疗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论