OpenAI 深夜放大招，DeepSeek 反手开源_ZAKER新闻

科技狐 5小时前

OpenAI 深夜放大招，DeepSeek 反手开源

这几天 AI 圈是真的有点过年那味了，OpenAI 深夜直接官宣， GPT-5.5 正式发布。

紧接着，DeepSeek 这边也没闲着，转手就把 V4 预览版端出来，还顺手开源。

一前一后，两波操作几乎无缝衔接，AI 圈这几天的节奏。

基本就是：刚看完一个重磅，还没来得及细想，下一个已经拍脸上了。

先说 GPT-5.5。

这次 OpenAI 的说法很直接：for real work。

翻译一下就是：别再只拿来聊天了，它是来干活的。

你给它一个目标，它不需要你一步步教，甚至会自己把任务拆开，理清步骤，规划路径，然后一边调用工具一边往下推进，最后把结果给你。

说白了，它开始有点 " 自己会推进事情 " 的感觉了。

更明显的是编程这块，以前是你写一点，它帮你补一点。

现在更像是你丢一个需求，它直接帮你把整个工程往前推：结构怎么搭、功能怎么做、哪里出错、怎么修复，它可以一路走完。

可以说，GPT-5.5 这次是真的全方位变强了。

最直观的一点：基准测试直接全线第一。

不管是编程、推理、数学，还是智能体任务， GPT-5.5 基本把 Claude Opus 4.7、Gemini 3.1 Pro 这一档都压了下去。

在 AAI 测试里，在相同输出 token 的情况下，它的智能指数直接全球第一；在 ARC-AGI-2 上，也直接刷新 SOTA。

一句话总结就是：不是领先一点，是直接拉开代差。

Open AI 创始人 Sam Altman 也直接下场夸赞： GPT-5.5 既聪明，又快。

更关键的是，它不是靠 " 多算力堆出来的强 "，而是效率也一起提升了。

它的 token 速度和上一代 GPT-5.4 基本一样，但每个任务用的 token 明显更少。

翻译一下就是：更聪明，但还更省。

再往下看它的测试标准 benchmark，会发现一个很明显的变化：这次已经不是 " 做题比赛 "，而是比拼 " 真实干活 " 能力了。

先说几个可以直接理解的指标。

GDPval，你可以把它理解成 "AI 的职场考试 "。

不是考数学题，而是直接让它模拟做办公室工作，比如写报告、做分析、处理文件，看它能不能像一个员工一样把活干完。

结果是 GPT-5.5 拿了 84.9%，比 Claude Opus 4.7 和 Gemini 3.1 Pro 都高。

OSWorld，可以理解成 " 操作电脑能力测试 "。

不是问它懂不懂，而是直接让它去用电脑：点按钮、切窗口、找信息、完成任务，看它能不能真的把操作跑完。

GPT-5.5 在这项里基本和 Opus 4.7 打平，但执行更稳。

Tau2-bench，更接近 " 公司业务流程模拟 "。

比如客服处理、查系统、一步步执行操作，不是单一步骤，而是一整条工作链。GPT-5.5 在没有特别优化的情况下直接接近满分。

这些结果拼起来，其实只说明一件事：它已经开始具备 " 完整干活 " 的能力了。

据 OpenAI 官方披露，现在内部已经有超过 85% 的员工在跨部门使用 Codex，而且已经不是 " 辅助工具 "，而是直接嵌进工作流程。

比如在对外沟通和运营类工作里，以前要人工整理大量历史信息，再判断优先级和风险。

现在变成 AI 先做一轮结构化归纳，把事情分层、分类，再自动标出哪些可以进入标准流程处理，哪些需要人工介入。

在偏重合规和财务的场景里，变化更明显。

过去那种大量文档核对，本质是 " 人盯表格 "，现在变成 " 模型先筛一遍 "，它会先把异常、冲突点和不一致的地方挑出来。

人只需要做最后确认和修正，工作重心直接从 " 处理数据 " 变成 " 审核结果 "。

而在市场和运营团队这类高频工作里，它更多是把原来分散的步骤串起来。

比如数据整理、周报生成、汇报材料准备，以前是三四个环节，现在变成输入目标后直接生成初稿，人只做最后一轮调整。

这时候再看 DeepSeek V4，就更清楚了。

DeepSeek 的路线不是 " 更强一点 "，而是 " 更便宜、更开放、更容易接入 "。

1M 超长上下文直接标配，Agent 能力强化，同时选择开源。

把两边放在一起，其实会发现一个很明显的变化。

AI 不再是比拼 " 谁更聪明 " 的阶段，进入 " 谁更能干活 " 的阶段。

过去我们评价模型，看的是它能不能解题、能不能写代码、能不能刷 benchmark。

现在开始变成：它能不能接任务、跑流程、跨工具协作，并且稳定交付结果。

在这个逻辑下，" 天才模型 " 依然存在，但已经不再是唯一答案。

因为企业需要的不是偶尔惊艳的能力，而是长期稳定的产能。

GPT-5.5 正是在往这个方向走：在保持能力基础上，但重点开始变成 " 能用、好用、稳定用 "。

而 DeepSeek 则是在把这件事进一步推向普及层。

一个在做标准化，一个在做基础设施化。

路径不同，但指向同一件事：AI 不再只是聊天工具，而是在慢慢变成如何更好服务人类工作。

参考资料：

OpenAI、X、Deepseek 等网络截图

编辑：不吃麦芽糖

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源翻译编程职场考试

相关文章

评论

没有更多评论了

12 我来说两句…

打开 ZAKER 参与讨论