吴怼怼 5小时前
AI御三家年终“火拼”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 吴怼怼

2025 年的人工智能(AI)领域可谓风起云涌:大模型你追我赶、商业版图急剧扩张。

以前我感觉用 ChatGPT+Claude 就可以了,现在必须加上 Gemini 和 Grok,要取四个 AI 之长。跟打王者荣耀升级一样,要有个本命英雄,但是同一分路还要会点别的英雄,最好还要擅长不同分路。

当然,被讨论和使用最多的,还是 ChatGPT,Claude 和 Gemini,我愿称之为 AI 御三家。

AI 御三家疯狂加码

年底压轴登场的 OpenAI GPT-5.2 成为年终焦点。

面对 Gemini 3 在各大榜单上后来居上的压力,OpenAI 提前启动红色代码警告,加速推出了这款新一代大模型。

GPT-5.2 被定位为 " 一款为专业知识工作打造的最强模型 ",在推理、编程和智能体任务上较前代有显著提升。

其最大亮点之一是超长上下文记忆能力:支持 40 万 Token 的输入窗口和 12.8 万 Token 的输出长度,可一次性 ingest 海量文档或代码库并生成长篇报告。

这意味着 GPT-5.2 能够阅读理解数百页资料后给出总结,在长链多步骤推理中表现更稳健。

OpenAI 还将 GPT-5.2 划分为 Instant、Thinking 和 Pro 三个等级模型,以平衡速度与深度需求—— Instant 偏重日常快速回答,Thinking 适合复杂结构化任务和长时智能 Agent 执行,Pro 则追求极致准确率以应对棘手问题。

在各项权威基准测试上,GPT-5.2 全面刷新纪录:比如在 SWE-Bench Pro 编程测试中达到 55.6% 的新高分,远超前代;在通用推理 ARC-AGI 测试上首次突破 90% 正确率。

值得一提的是,GPT-5.2 虽然对图像生成暂未有显著改进(OpenAI 透露 " 图像生成的增强还在筹备中 "),但在多模态理解上已有进步:它能够更好地 " 感知图像 " 并结合视觉输入完成复杂任务。

此外,GPT-5.2 成为 OpenAI 推动 "Mega-Agent 时代 " 的引擎,其连贯长程代理能力令人瞩目——测试显示它能自主完成 40% 更复杂的长链任务,如根据乘客反馈自动完成改签航班、预订酒店、申请赔偿的一整套事务,比前代 5.1 覆盖更多步骤且更准确。

这一年,经历了年初 GPT-5.0/5.1 推出时的波折(性能和风格调整一度饱受争议,被用户批评 " 过于冰冷刻板 ",OpenAI 火速用 5.1 版本改善了亲和度),OpenAI 凭借 GPT-5.2 在年末重夺技术王冠,在大模型军备竞赛中卷土重来。

作为 OpenAI 强劲的对手,Anthropic 在 2025 年持续发力,9 月发布了 Claude 4.5。Claude 4.5 主打自主编程与工具操作能力。

在内部测试中,其子型号 Claude 4.5-Sonnet 曾连续自主编程 30 小时构建出一个 Web 应用,而此前 Claude Opus 4 只能坚持 7 小时。

这一飞跃体现出 Claude 在长程任务上的稳定性提升,让 AI 代理真正能够长时间无监督地工作。

Anthropic 表示 4.5 在金融分析和科学推理上也更胜一筹,在一项操作系统使用能力测试中得分约 60%,远高于前代模型的 40%。

换言之,Claude 4.5 更善于像人一样使用电脑完成多步骤任务,这对需要 AI 自动执行业务流程的企业非常关键。Anthropic 一贯强调安全可靠,以降低出错或产生有害内容的风险,定位于企业及专业用户场景。

在架构上,Claude 4.5 提供了不同性能版本:例如 Claude 4.5-Haiku、Sonnet、Opus 等,分别平衡速度、成本与精度,其中最强的 Opus 4.5 版本支持更大的上下文窗口和更高的调用上限(相应成本也最高)。

这反映出大模型普遍朝着精细化配置方向发展。值得关注的是,Claude 4.5 在发布当日即宣布与微软深化合作:微软将其引入 Microsoft 365 Copilot,增加 Excel/Word 的 " 智能体模式 " 和 Copilot 聊天中的 "Office 助手 " 等新特性。

微软此举意在让 Office 用户获得更强的自动办公助手,同时也表明其生态策略从独家捆绑 OpenAI 转为多模型并举。

而在 OpenAI 和 Anthropic 激战正酣之际,谷歌 DeepMind 整合优势,于 11 月发布了里程碑式的 Gemini 3 模型。作为谷歌雄心勃勃的旗舰,Gemini 3 Pro 号称谷歌 " 有史以来最智能、事实准确率最高 " 的 AI。

与其前代相比,Gemini 3 最大的突破是 " 原生多模态 ":它能同时处理文本、图像和音频,多模态融合能力业界领先。

例如,用户可以让 Gemini 读取菜谱照片并直接生成烹饪手册,或让它看一系列视频课程后自动创建交互式学习卡片。

这种将视觉、听觉与文本理解打通的能力,为 AI 应用打开了新局面。借助多模态和强大的编程能力,Gemini 3 还能输出富媒体结果:在 Google 搜索的 AI 模式下,它可以把答案呈现为图片、表格、网页等动态格式,而非仅有文字。

更惊艳的是,Gemini 3 内置增强版的搜索工具调用机制,能自主将复杂问题拆解成子查询去搜索,并结合结果给出整合答案。这一 " 查询分解 + 工具使用 " 策略提升了答案的广度和准确性。

Gemini 3 在交互风格上也别具特色:谷歌直言其回复将摒弃讨好倾向,不再一味迎合用户而是提供 " 聪明、简洁、直接 " 的洞见,避免空洞恭维。过去聊天机器人易有的过度谄媚在 Gemini 上大幅减少,这被视为对 ChatGPT 习惯说 " 好话 " 的一针讽刺。

除了日常问答,Gemini 3 Pro 还强化了推理规划和 Agent 能力。谷歌称其可以 " 可靠地进行更长远的计划 ",驱动实验性的 Gemini 智能代理,帮助用户自动收发邮件、研究行程甚至预订机票。这预示着搜索引擎正从提供信息进化为直接代办任务的全能助理。

性能方面,Gemini 3 Pro 一经推出即登顶权威排行榜 LMArena,足见其实力。Gemini 3 发布当天,谷歌选择在其 Gemini App 上向全民免费开放旗舰模型 Pro,并很快在搜索服务中提供给订阅用户使用。

这种大规模分发策略与 OpenAI 先会员后开放的方式形成对比,也显示了谷歌在消费级 AI 领域抢占用户的迫切。

Gemini 3 Pro 的横空出世,标志着谷歌在经历了 GPT-4/Bard 时期的相对落后后,于 2025 年强势反超,一度引发行业内 "Holy Shit!,谷歌赢得 AI 竞赛 " 的惊叹。

估值飙升再飙升

2025 年,AI 赛道的融资规模再创新高,多家头部独角兽估值飙涨,吸金能力惊人。 OpenAI 在未进行公开融资的情况下,据报道正寻求员工股份出售,潜在估值高达 5000 亿美元——这一数字是欧洲 AI 独角兽估值的数十倍,体现出投资者对其龙头地位的信心。

而 Anthropic 在 9 月宣布完成 130 亿美元的巨额融资,投后估值达 1830 亿美元,较年初翻了近两倍。

此轮融资由硅谷知名投资机构 ICONIQ 领投,富达、Lightspeed 等跟投,亦有中东的卡塔尔主权基金和华尔街巨头黑石等参与。

Anthropic 一跃成为全球估值第三高的非上市公司,仅次于 SpaceX 等少数巨头。随着资金涌入,Anthropic 公布其业务营收增长迅猛:2025 年初年化收入约 10 亿美元,到了 8 月激增至 50 亿美元,表明大型 AI 模型的商业付费需求正被快速开发。

另一家引人注目的创业公司是法国的 Mistral AI。这家 2023 年才成立的创业公司,2025 年 9 月获得了 17 亿欧元(约 20 亿美元)的系列 C 投资。由荷兰光刻机巨头 ASML 领投 1.3 亿欧元,占股 11%,其余包括 DST、a16z、创投基金 Bpifrance、英伟达等纷纷押注。

此次融资使 Mistral 估值达到 117 亿欧元,成为欧洲 AI 领域新的价值巅峰。尽管这一估值仅相当于 OpenAI 传闻估值的约 1/40,但对于欧洲来说是重大突破—— Mistral 被视为欧盟对抗美中 AI 巨头的重要希望,法国更将其视作国家 AI 战略的核心。

马斯克于 2023 年创建的 xAI 在今年也有所动作。xAI 开发的对话模型 Grok 持续迭代,2025 年推出了 Grok 4,据称在部分基准上号称 " 世界最聪明 "。

Musk 在社交媒体上高调宣传 Grok 整合了实时网络检索和各种工具插件,并赋予其鲜明的 " 直言不讳 " 个性,让其回答带有一点 "Meme 风格 ",以吸引年轻用户。

作为 OpenAI 背后最大的金主和合作伙伴,微软在 2025 年的策略出现了微妙变化。一方面,微软将 OpenAI 模型深度嵌入其 Windows、Office、Bing 等核心产品,持续收割付费用户和云计算消耗。

今年微软全面上线了 Windows 11 的 Copilot 助手,将操作系统与 GPT 助手融为一体,用户可以直接在桌面调用 AI 完成设置、搜索等操作,让传统 OS 焕发新生。

同时,微软 Azure 云借助 OpenAI 服务吸引了大量企业上云进行 AI 开发,Azure 的使用量和收入显著增长。

但另一方面,微软不再将宝押在 OpenAI 一家:10 月,微软宣布与 Anthropic 达成合作,将后者 Claude 模型引入 Azure 并在 Office 中集成。微软高管称此举是为了给客户提供 " 多样化选择 ",降低对单一供应商的依赖。

这或许与 2023 年末 OpenAI 高层动荡(Altman 一度被董事会驱逐后又复归)有关,微软意识到必须预防风险、扶持第二阵营以维持自己的 AI 领先地位。

此外,微软也加码自研,传闻其内部的生成式模型项目(代号 Omega)在研制多模态基础模型,以备不时之需。

谷歌在经历了 ChatGPT 带来的 "AI 觉醒 " 之后,今年实现了 AI 战略的大幅转身。Google DeepMind 的成立整合了谷歌原有的 Brain 团队与 DeepMind 研究院资源,成为谷歌 AI 创新的核心引擎。

Gemini 3 的成功推出让谷歌重夺技术话语权,也增强了内部信心。谷歌随即在产品线上全面开花:搜索业务推出 "AI 对话模式 ",地图应用上线路线智能生成和旅行规划助手,Gmail/Docs 增加 AI 写作辅助功能等。

不仅软件服务,谷歌在 Android 系统中也增加了端侧 AI 能力,例如利用手机 SoC 内的 TPU 微芯片,实现小型语言模型的本地推理,提供离线的智能输入法、更精准的相册识别等。

甚至有报道指出,谷歌与苹果达成协议,为后者提供定制的 Gemini 模型用于提升 iOS 上的智能体验。

这表明谷歌积极寻求将其 AI 技术输出赋能更多平台。商业上,谷歌云也以提供多元模型著称——除了自家的 PaLM/Gemini 系列,第三方的 Meta Llama2、Anthropic Claude 等也能在其 Vertex AI 平台上获取,从而与微软 Azure 在企业市场上抗衡。

谷歌今年对 AI 创业公司的投资并购也有增加,据传它投资了多家生成式 AI 初创(例如 Inflection)以扩展生态。谷歌卷土重来,在 AI 领域从被动应战转为主动出击,通过技术突破和生态联盟重塑了自己的领先地位。

Meta 继续走开放生态和消费者应用两手抓的路线。一方面,它在开源社区的地位巩固。自从 2023 年开源 LLaMA 模型大获成功后,Meta 在 2025 年又相继推出了改进版的 LLaMA 3 模型以及一系列开源的多模态模型,包括图像生成模型和语音合成模型。

这些模型免费供研究者和开发者使用,仅要求遵守一些不用于有害用途的许可,大量第三方应用建立在 Meta 模型之上。

另一方面,Meta 充分发挥旗下社交产品的流量,将 AI 融入数十亿用户的日常。2025 年,Meta 在 Messenger 和 Instagram 中推出了一系列 AI 角色聊天功能,例如用户可以和由名人形象构建的 AI 聊天(这些明星形象的对话风格由模型模拟,并获得了明星本人的授权)。

用户还可以让 AI 根据朋友圈内容自动生成趣味回应,或在 Instagram 上通过文字命令生成个性化的图片贴纸。Meta 的 VR/AR 事业部也不甘落后,在 Meta Quest 头显中集成了 AI 教练和 AI 健身指导,提供沉浸式的互动体验。

值得注意的是,Meta 在 AI 商业化上更侧重间接收益——通过提升用户黏性、广告定向和内容生态繁荣来赚钱,而非直接出售 API。因此,Meta 乐于推动 AI 开源降低成本,同时凭借其社交帝国将 AI 无缝融入产品,巩固自身社交媒体霸主地位。

相比喧嚣的友商,苹果在 AI 领域依旧低调、缓慢但务实。2025 年的 WWDC 大会上,苹果官宣了一项重大底层升级:iOS/macOS 引入了本地大型语言模型(Foundation Models)框架,开发者可调用系统提供的基础模型,在 App 中实现更智能的功能。

苹果透露,他们针对 Apple 设备专门训练了多语言的中等规模语言模型,并进行了深度优化,使其能够在 iPhone/ 苹果电脑上离线运行,用于键盘联想、语音助手 Siri 应答等场景。

这意味着用户的部分 AI 请求不必上传云端,在设备上即可处理,提升了隐私与响应速度。同时,苹果也将 AI 应用于照片处理(利用生成模型一键除物或改变背景)、Apple Music 个性歌单(AI 分析用户喜好生成播放列表)等方面,提升用户体验。

有传闻称苹果还与谷歌达成某种合作,可能在云端借助定制版 Gemini 模型来增强 iCloud 的 AI 服务。

但截至年底,苹果并未发布类似 ChatGPT 的通用聊天产品,Siri 的智能度也还有提升空间——不过可以预料,一旦苹果认为时机成熟,可能会推出深度融合硬件优势的 AI 助手,引发新的行业震动。

苹果的策略体现了差异化竞争:它不与 OpenAI 等正面拼参数规模,而是发挥软硬件一体的长处,让 AI 默默融入生态,为用户提供便利且安全的功能。这种润物细无声的推进,契合苹果品牌调性,也为行业提供了另一种范式:以终端和隐私为中心的 AI 道路。

当然,另一面,AI 是否存在泡沫的讨论也越来越多。

无论如何,作为用户,还是希望,2026,AI 御三家,以及更多玩家,继续打起来吧。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

王者荣耀 人工智能 编程 准确 航班
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论