AI御三家年终“火拼”

文 | 吴怼怼

2025 年的人工智能（AI）领域可谓风起云涌：大模型你追我赶、商业版图急剧扩张。

以前我感觉用 ChatGPT+Claude 就可以了，现在必须加上 Gemini 和 Grok，要取四个 AI 之长。跟打王者荣耀升级一样，要有个本命英雄，但是同一分路还要会点别的英雄，最好还要擅长不同分路。

当然，被讨论和使用最多的，还是 ChatGPT，Claude 和 Gemini，我愿称之为 AI 御三家。

AI 御三家疯狂加码

年底压轴登场的 OpenAI GPT-5.2 成为年终焦点。

面对 Gemini 3 在各大榜单上后来居上的压力，OpenAI 提前启动红色代码警告，加速推出了这款新一代大模型。

GPT-5.2 被定位为 " 一款为专业知识工作打造的最强模型 "，在推理、编程和智能体任务上较前代有显著提升。

其最大亮点之一是超长上下文记忆能力：支持 40 万 Token 的输入窗口和 12.8 万 Token 的输出长度，可一次性 ingest 海量文档或代码库并生成长篇报告。

这意味着 GPT-5.2 能够阅读理解数百页资料后给出总结，在长链多步骤推理中表现更稳健。

OpenAI 还将 GPT-5.2 划分为 Instant、Thinking 和 Pro 三个等级模型，以平衡速度与深度需求—— Instant 偏重日常快速回答，Thinking 适合复杂结构化任务和长时智能 Agent 执行，Pro 则追求极致准确率以应对棘手问题。

在各项权威基准测试上，GPT-5.2 全面刷新纪录：比如在 SWE-Bench Pro 编程测试中达到 55.6% 的新高分，远超前代；在通用推理 ARC-AGI 测试上首次突破 90% 正确率。

值得一提的是，GPT-5.2 虽然对图像生成暂未有显著改进（OpenAI 透露 " 图像生成的增强还在筹备中 "），但在多模态理解上已有进步：它能够更好地 " 感知图像 " 并结合视觉输入完成复杂任务。

此外，GPT-5.2 成为 OpenAI 推动 "Mega-Agent 时代 " 的引擎，其连贯长程代理能力令人瞩目——测试显示它能自主完成 40% 更复杂的长链任务，如根据乘客反馈自动完成改签航班、预订酒店、申请赔偿的一整套事务，比前代 5.1 覆盖更多步骤且更准确。

这一年，经历了年初 GPT-5.0/5.1 推出时的波折（性能和风格调整一度饱受争议，被用户批评 " 过于冰冷刻板 "，OpenAI 火速用 5.1 版本改善了亲和度），OpenAI 凭借 GPT-5.2 在年末重夺技术王冠，在大模型军备竞赛中卷土重来。

作为 OpenAI 强劲的对手，Anthropic 在 2025 年持续发力，9 月发布了 Claude 4.5。Claude 4.5 主打自主编程与工具操作能力。

在内部测试中，其子型号 Claude 4.5-Sonnet 曾连续自主编程 30 小时构建出一个 Web 应用，而此前 Claude Opus 4 只能坚持 7 小时。

这一飞跃体现出 Claude 在长程任务上的稳定性提升，让 AI 代理真正能够长时间无监督地工作。

Anthropic 表示 4.5 在金融分析和科学推理上也更胜一筹，在一项操作系统使用能力测试中得分约 60%，远高于前代模型的 40%。

换言之，Claude 4.5 更善于像人一样使用电脑完成多步骤任务，这对需要 AI 自动执行业务流程的企业非常关键。Anthropic 一贯强调安全可靠，以降低出错或产生有害内容的风险，定位于企业及专业用户场景。

在架构上，Claude 4.5 提供了不同性能版本：例如 Claude 4.5-Haiku、Sonnet、Opus 等，分别平衡速度、成本与精度，其中最强的 Opus 4.5 版本支持更大的上下文窗口和更高的调用上限（相应成本也最高）。

这反映出大模型普遍朝着精细化配置方向发展。值得关注的是，Claude 4.5 在发布当日即宣布与微软深化合作：微软将其引入 Microsoft 365 Copilot，增加 Excel/Word 的 " 智能体模式 " 和 Copilot 聊天中的 "Office 助手 " 等新特性。

微软此举意在让 Office 用户获得更强的自动办公助手，同时也表明其生态策略从独家捆绑 OpenAI 转为多模型并举。

而在 OpenAI 和 Anthropic 激战正酣之际，谷歌 DeepMind 整合优势，于 11 月发布了里程碑式的 Gemini 3 模型。作为谷歌雄心勃勃的旗舰，Gemini 3 Pro 号称谷歌 " 有史以来最智能、事实准确率最高 " 的 AI。

与其前代相比，Gemini 3 最大的突破是 " 原生多模态 "：它能同时处理文本、图像和音频，多模态融合能力业界领先。

例如，用户可以让 Gemini 读取菜谱照片并直接生成烹饪手册，或让它看一系列视频课程后自动创建交互式学习卡片。

这种将视觉、听觉与文本理解打通的能力，为 AI 应用打开了新局面。借助多模态和强大的编程能力，Gemini 3 还能输出富媒体结果：在 Google 搜索的 AI 模式下，它可以把答案呈现为图片、表格、网页等动态格式，而非仅有文字。

更惊艳的是，Gemini 3 内置增强版的搜索工具调用机制，能自主将复杂问题拆解成子查询去搜索，并结合结果给出整合答案。这一 " 查询分解 + 工具使用 " 策略提升了答案的广度和准确性。

Gemini 3 在交互风格上也别具特色：谷歌直言其回复将摒弃讨好倾向，不再一味迎合用户而是提供 " 聪明、简洁、直接 " 的洞见，避免空洞恭维。过去聊天机器人易有的过度谄媚在 Gemini 上大幅减少，这被视为对 ChatGPT 习惯说 " 好话 " 的一针讽刺。

除了日常问答，Gemini 3 Pro 还强化了推理规划和 Agent 能力。谷歌称其可以 " 可靠地进行更长远的计划 "，驱动实验性的 Gemini 智能代理，帮助用户自动收发邮件、研究行程甚至预订机票。这预示着搜索引擎正从提供信息进化为直接代办任务的全能助理。

性能方面，Gemini 3 Pro 一经推出即登顶权威排行榜 LMArena，足见其实力。Gemini 3 发布当天，谷歌选择在其 Gemini App 上向全民免费开放旗舰模型 Pro，并很快在搜索服务中提供给订阅用户使用。

这种大规模分发策略与 OpenAI 先会员后开放的方式形成对比，也显示了谷歌在消费级 AI 领域抢占用户的迫切。

Gemini 3 Pro 的横空出世，标志着谷歌在经历了 GPT-4/Bard 时期的相对落后后，于 2025 年强势反超，一度引发行业内 "Holy Shit!，谷歌赢得 AI 竞赛 " 的惊叹。

估值飙升再飙升

2025 年，AI 赛道的融资规模再创新高，多家头部独角兽估值飙涨，吸金能力惊人。 OpenAI 在未进行公开融资的情况下，据报道正寻求员工股份出售，潜在估值高达 5000 亿美元——这一数字是欧洲 AI 独角兽估值的数十倍，体现出投资者对其龙头地位的信心。

而 Anthropic 在 9 月宣布完成 130 亿美元的巨额融资，投后估值达 1830 亿美元，较年初翻了近两倍。

此轮融资由硅谷知名投资机构 ICONIQ 领投，富达、Lightspeed 等跟投，亦有中东的卡塔尔主权基金和华尔街巨头黑石等参与。

Anthropic 一跃成为全球估值第三高的非上市公司，仅次于 SpaceX 等少数巨头。随着资金涌入，Anthropic 公布其业务营收增长迅猛：2025 年初年化收入约 10 亿美元，到了 8 月激增至 50 亿美元，表明大型 AI 模型的商业付费需求正被快速开发。

另一家引人注目的创业公司是法国的 Mistral AI。这家 2023 年才成立的创业公司，2025 年 9 月获得了 17 亿欧元（约 20 亿美元）的系列 C 投资。由荷兰光刻机巨头 ASML 领投 1.3 亿欧元，占股 11%，其余包括 DST、a16z、创投基金 Bpifrance、英伟达等纷纷押注。

此次融资使 Mistral 估值达到 117 亿欧元，成为欧洲 AI 领域新的价值巅峰。尽管这一估值仅相当于 OpenAI 传闻估值的约 1/40，但对于欧洲来说是重大突破—— Mistral 被视为欧盟对抗美中 AI 巨头的重要希望，法国更将其视作国家 AI 战略的核心。

马斯克于 2023 年创建的 xAI 在今年也有所动作。xAI 开发的对话模型 Grok 持续迭代，2025 年推出了 Grok 4，据称在部分基准上号称 " 世界最聪明 "。

Musk 在社交媒体上高调宣传 Grok 整合了实时网络检索和各种工具插件，并赋予其鲜明的 " 直言不讳 " 个性，让其回答带有一点 "Meme 风格 "，以吸引年轻用户。

作为 OpenAI 背后最大的金主和合作伙伴，微软在 2025 年的策略出现了微妙变化。一方面，微软将 OpenAI 模型深度嵌入其 Windows、Office、Bing 等核心产品，持续收割付费用户和云计算消耗。

今年微软全面上线了 Windows 11 的 Copilot 助手，将操作系统与 GPT 助手融为一体，用户可以直接在桌面调用 AI 完成设置、搜索等操作，让传统 OS 焕发新生。

同时，微软 Azure 云借助 OpenAI 服务吸引了大量企业上云进行 AI 开发，Azure 的使用量和收入显著增长。

但另一方面，微软不再将宝押在 OpenAI 一家：10 月，微软宣布与 Anthropic 达成合作，将后者 Claude 模型引入 Azure 并在 Office 中集成。微软高管称此举是为了给客户提供 " 多样化选择 "，降低对单一供应商的依赖。

这或许与 2023 年末 OpenAI 高层动荡（Altman 一度被董事会驱逐后又复归）有关，微软意识到必须预防风险、扶持第二阵营以维持自己的 AI 领先地位。

此外，微软也加码自研，传闻其内部的生成式模型项目（代号 Omega）在研制多模态基础模型，以备不时之需。

谷歌在经历了 ChatGPT 带来的 "AI 觉醒 " 之后，今年实现了 AI 战略的大幅转身。Google DeepMind 的成立整合了谷歌原有的 Brain 团队与 DeepMind 研究院资源，成为谷歌 AI 创新的核心引擎。

Gemini 3 的成功推出让谷歌重夺技术话语权，也增强了内部信心。谷歌随即在产品线上全面开花：搜索业务推出 "AI 对话模式 "，地图应用上线路线智能生成和旅行规划助手，Gmail/Docs 增加 AI 写作辅助功能等。

不仅软件服务，谷歌在 Android 系统中也增加了端侧 AI 能力，例如利用手机 SoC 内的 TPU 微芯片，实现小型语言模型的本地推理，提供离线的智能输入法、更精准的相册识别等。

甚至有报道指出，谷歌与苹果达成协议，为后者提供定制的 Gemini 模型用于提升 iOS 上的智能体验。

这表明谷歌积极寻求将其 AI 技术输出赋能更多平台。商业上，谷歌云也以提供多元模型著称——除了自家的 PaLM/Gemini 系列，第三方的 Meta Llama2、Anthropic Claude 等也能在其 Vertex AI 平台上获取，从而与微软 Azure 在企业市场上抗衡。

谷歌今年对 AI 创业公司的投资并购也有增加，据传它投资了多家生成式 AI 初创（例如 Inflection）以扩展生态。谷歌卷土重来，在 AI 领域从被动应战转为主动出击，通过技术突破和生态联盟重塑了自己的领先地位。

Meta 继续走开放生态和消费者应用两手抓的路线。一方面，它在开源社区的地位巩固。自从 2023 年开源 LLaMA 模型大获成功后，Meta 在 2025 年又相继推出了改进版的 LLaMA 3 模型以及一系列开源的多模态模型，包括图像生成模型和语音合成模型。

这些模型免费供研究者和开发者使用，仅要求遵守一些不用于有害用途的许可，大量第三方应用建立在 Meta 模型之上。

另一方面，Meta 充分发挥旗下社交产品的流量，将 AI 融入数十亿用户的日常。2025 年，Meta 在 Messenger 和 Instagram 中推出了一系列 AI 角色聊天功能，例如用户可以和由名人形象构建的 AI 聊天（这些明星形象的对话风格由模型模拟，并获得了明星本人的授权）。

用户还可以让 AI 根据朋友圈内容自动生成趣味回应，或在 Instagram 上通过文字命令生成个性化的图片贴纸。Meta 的 VR/AR 事业部也不甘落后，在 Meta Quest 头显中集成了 AI 教练和 AI 健身指导，提供沉浸式的互动体验。

值得注意的是，Meta 在 AI 商业化上更侧重间接收益——通过提升用户黏性、广告定向和内容生态繁荣来赚钱，而非直接出售 API。因此，Meta 乐于推动 AI 开源降低成本，同时凭借其社交帝国将 AI 无缝融入产品，巩固自身社交媒体霸主地位。

相比喧嚣的友商，苹果在 AI 领域依旧低调、缓慢但务实。2025 年的 WWDC 大会上，苹果官宣了一项重大底层升级：iOS/macOS 引入了本地大型语言模型（Foundation Models）框架，开发者可调用系统提供的基础模型，在 App 中实现更智能的功能。

苹果透露，他们针对 Apple 设备专门训练了多语言的中等规模语言模型，并进行了深度优化，使其能够在 iPhone/ 苹果电脑上离线运行，用于键盘联想、语音助手 Siri 应答等场景。

这意味着用户的部分 AI 请求不必上传云端，在设备上即可处理，提升了隐私与响应速度。同时，苹果也将 AI 应用于照片处理（利用生成模型一键除物或改变背景）、Apple Music 个性歌单（AI 分析用户喜好生成播放列表）等方面，提升用户体验。

有传闻称苹果还与谷歌达成某种合作，可能在云端借助定制版 Gemini 模型来增强 iCloud 的 AI 服务。

但截至年底，苹果并未发布类似 ChatGPT 的通用聊天产品，Siri 的智能度也还有提升空间——不过可以预料，一旦苹果认为时机成熟，可能会推出深度融合硬件优势的 AI 助手，引发新的行业震动。

苹果的策略体现了差异化竞争：它不与 OpenAI 等正面拼参数规模，而是发挥软硬件一体的长处，让 AI 默默融入生态，为用户提供便利且安全的功能。这种润物细无声的推进，契合苹果品牌调性，也为行业提供了另一种范式：以终端和隐私为中心的 AI 道路。

当然，另一面，AI 是否存在泡沫的讨论也越来越多。

无论如何，作为用户，还是希望，2026，AI 御三家，以及更多玩家，继续打起来吧。

宙世代

一起剪

相关标签