科技狐 5小时前
OpenAI 深夜放大招,DeepSeek 反手开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

这几天 AI 圈是真的有点过年那味了,OpenAI 深夜直接官宣, GPT-5.5 正式发布。

紧接着,DeepSeek 这边也没闲着,转手就把 V4 预览版端出来,还顺手开源。

一前一后,两波操作几乎无缝衔接,AI 圈这几天的节奏。

基本就是:刚看完一个重磅,还没来得及细想,下一个已经拍脸上了。

先说 GPT-5.5。

这次 OpenAI 的说法很直接:for real work。

翻译一下就是:别再只拿来聊天了,它是来干活的。

你给它一个目标,它不需要你一步步教,甚至会自己把任务拆开,理清步骤,规划路径,然后一边调用工具一边往下推进,最后把结果给你。

说白了,它开始有点 " 自己会推进事情 " 的感觉了。

更明显的是编程这块,以前是你写一点,它帮你补一点。

现在更像是你丢一个需求,它直接帮你把整个工程往前推:结构怎么搭、功能怎么做、哪里出错、怎么修复,它可以一路走完。

可以说,GPT-5.5 这次是真的全方位变强了。

最直观的一点:基准测试直接全线第一。

不管是编程、推理、数学,还是智能体任务, GPT-5.5 基本把 Claude Opus 4.7、Gemini 3.1 Pro 这一档都压了下去。

在 AAI 测试里,在相同输出 token 的情况下,它的智能指数直接全球第一;在 ARC-AGI-2 上,也直接刷新 SOTA。

一句话总结就是:不是领先一点,是直接拉开代差。

Open AI 创始人 Sam Altman 也直接下场夸赞: GPT-5.5 既聪明,又快。

更关键的是,它不是靠 " 多算力堆出来的强 ",而是效率也一起提升了。

它的 token 速度和上一代 GPT-5.4 基本一样,但每个任务用的 token 明显更少。

翻译一下就是:更聪明,但还更省。

再往下看它的测试标准 benchmark,会发现一个很明显的变化:这次已经不是 " 做题比赛 ",而是比拼 " 真实干活 " 能力了。

先说几个可以直接理解的指标。

GDPval,你可以把它理解成 "AI 的职场考试 "。

不是考数学题,而是直接让它模拟做办公室工作,比如写报告、做分析、处理文件,看它能不能像一个员工一样把活干完。

结果是 GPT-5.5 拿了 84.9%,比 Claude Opus 4.7 和 Gemini 3.1 Pro 都高。

OSWorld,可以理解成 " 操作电脑能力测试 "。

不是问它懂不懂,而是直接让它去用电脑:点按钮、切窗口、找信息、完成任务,看它能不能真的把操作跑完。

GPT-5.5 在这项里基本和 Opus 4.7 打平,但执行更稳。

Tau2-bench,更接近 " 公司业务流程模拟 "。

比如客服处理、查系统、一步步执行操作,不是单一步骤,而是一整条工作链。GPT-5.5 在没有特别优化的情况下直接接近满分。

这些结果拼起来,其实只说明一件事:它已经开始具备 " 完整干活 " 的能力了。

据 OpenAI 官方披露,现在内部已经有超过 85% 的员工在跨部门使用 Codex,而且已经不是 " 辅助工具 ",而是直接嵌进工作流程。

比如在对外沟通和运营类工作里,以前要人工整理大量历史信息,再判断优先级和风险。

现在变成 AI 先做一轮结构化归纳,把事情分层、分类,再自动标出哪些可以进入标准流程处理,哪些需要人工介入。

在偏重合规和财务的场景里,变化更明显。

过去那种大量文档核对,本质是 " 人盯表格 ",现在变成 " 模型先筛一遍 ",它会先把异常、冲突点和不一致的地方挑出来。

人只需要做最后确认和修正,工作重心直接从 " 处理数据 " 变成 " 审核结果 "。

而在市场和运营团队这类高频工作里,它更多是把原来分散的步骤串起来。

比如数据整理、周报生成、汇报材料准备,以前是三四个环节,现在变成输入目标后直接生成初稿,人只做最后一轮调整。

这时候再看 DeepSeek V4,就更清楚了。

DeepSeek 的路线不是 " 更强一点 ",而是 " 更便宜、更开放、更容易接入 "。

1M 超长上下文直接标配,Agent 能力强化,同时选择开源。

把两边放在一起,其实会发现一个很明显的变化。

AI 不再是比拼 " 谁更聪明 " 的阶段,进入 " 谁更能干活 " 的阶段。

过去我们评价模型,看的是它能不能解题、能不能写代码、能不能刷 benchmark。

现在开始变成:它能不能接任务、跑流程、跨工具协作,并且稳定交付结果。

在这个逻辑下," 天才模型 " 依然存在,但已经不再是唯一答案。

因为企业需要的不是偶尔惊艳的能力,而是长期稳定的产能。

GPT-5.5 正是在往这个方向走:在保持能力基础上,但重点开始变成 " 能用、好用、稳定用 "。

而 DeepSeek 则是在把这件事进一步推向普及层。

一个在做标准化,一个在做基础设施化。

路径不同,但指向同一件事:AI 不再只是聊天工具,而是在慢慢变成如何更好服务人类工作。

参考资料:

OpenAI、X、Deepseek 等网络截图

编辑:不吃麦芽糖

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 翻译 编程 职场 考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论