微软"叛逃"OpenAI：让GPT和Claude互审，AI幻觉的结构性解法?

AI 时代的 " 门户之见 " 正在消融。

当地时间 3 月 30 日，微软宣布为 Microsoft 365 Copilot 推出 " 多模协作 " 深度研究功能，允许 OpenAI GPT 与 Anthropic Claude 在同一任务中协同工作——对于行业来说，或许这不是简单的 API 拼接，而是一场关于 AI 竞争底层逻辑的范式重构。

事件核心：Critique 与 Council 双引擎出击

美国时间 3 月 30 日，微软对 Microsoft 365 Copilot 研究助理（Researcher）功能进行了一次意义深远的更新——微软推出了两项互补的多模型协同功能：

Critique（批判）功能：

该功能采用 " 生成 - 审核 " 协同架构。在实际运行中，OpenAI 的 GPT 模型负责研究并生成回复内容，同时 Anthropic 的 Claude 模型并行对输出结果的准确性和质量进行审核，最终经过双重验证的成果呈现给用户。Claude 的审查重点包括稿件的准确性、完整性和引证质量。

微软同时透露，未来该功能将支持双向协作——由 Claude 先生成、GPT 后审核，实现真正意义上的对称协作。

微软 365 和 Copilot 企业副总裁 Nicole Herskowitz 表示，这种多模型方法应有助于限制 AI 幻觉并提高生产力。微软同时透露，未来该功能将支持双向运行—— Claude 先写、GPT 后审，实现真正意义上的对称协作。

Council（理事会）功能：

该功能采用并行对比架构。GPT 与 Claude 针对同一课题独立展开研究并生成各自报告后，由一个独立的 " 裁判模型 " 对两份产出进行评估，提炼出共识点和分歧点，并总结每个模型的独特贡献。这套机制本质上是在搭建一个 " 模型间辩论场 "。

数据支撑：DRACO 基准验证 "1+1>2"

概念再好，最终要靠数据说话。微软援引了业界衡量深度研究质量的 DRACO 基准测试结果，作为此次多模型架构的有效性背书。

DRACO 基准测试显示，Critique 系统在研究结果的广度、深度及表达质量等核心维度上，表现均优于市场上同类单一架构产品。微软首席执行官萨蒂亚 · 纳德拉（Satya Nadella）在社交媒体上进一步宣称，与 OpenAI、谷歌及 Perplexity 的同类深度研究产品相比，Critique 能提供" 顶尖的深度研究质量 "。

截至发稿，微软尚未公开 DRACO 基准测试的完整量化数据。纳德拉在公开声明中使用的表述是 Critique 能提供 " 顶尖的深度研究质量 "，并称其表现优于 OpenAI、谷歌和 Perplexity 的同类产品。

尽管具体的量化提升数据仍待进一步透明化，但纳德拉的公开背书以及微软在基准测试中对标 OpenAI 自身产品、谷歌和 Perplexity 的做法，至少传递出一个信号：这是一次经过充分测试的产品化发布。

从 " 模型忠诚 " 到 " 架构自由 "

Critique 的发布背后，藏着一条清晰的战略叙事线。这条线的起点，是微软与 OpenAI 之间微妙的关系演变。

1. 微软 -OpenAI 关系的结构性松动

2025 年 10 月 28 日，OpenAI 宣布完成企业重组，正式转型为公共利益公司（PBC）。根据新协议，微软持有 OpenAI 营利业务板块约 27% 的股份，同时保留了对其模型和产品的技术访问权至 2032 年。值得注意的是，此前（2025 年初）双方已调整合作关系，OpenAI 获准访问竞争对手的计算资源，打破了此前仅依赖微软 Azure 的算力独家供应格局。

紧接着，2025 年 11 月 18 日，微软与英伟达、Anthropic 宣布建立新的战略合作伙伴关系。微软承诺向 Anthropic 投资最多50 亿美元，Anthropic 则承诺从微软购买价值300 亿美元的 Azure 算力。Claude 模型正式登陆微软 Azure 平台。微软 CEO 纳德拉当时明确表示，OpenAI 仍然是微软的关键合作伙伴，但与 Anthropic 的合作建立在 " 将越来越多地成为彼此的客户 " 的基础之上。

2. 多模型之药

如果回溯时间线，会发现纳德拉推动 Copilot 多模型化的紧迫感并非无中生有。据报道，2025 年 12 月，纳德拉在内部沟通中直言 Copilot 与 Gmail、Outlook 等工具的集成 " 大多不奏效 " 且 " 不够智能 "，并亲自介入督促产品团队整改。这一内部危机意识，为后续多模型战略埋下了伏笔。

2026 年 3 月 9 日，微软正式推出基于 Anthropic Claude 模型的Copilot Cowork智能体，支持多步骤工作流自主执行。而此次 Critique 和 Council 的推出，则是多模型协作的进一步延伸—— Copilot Cowork 侧重于 Claude 独立执行复杂工作流，而 Critique 让 GPT 与 Claude 在同一研究任务中形成 " 生成 + 审核 " 的互补组合。两者的定位并非替代关系，而是微软多模型生态中覆盖不同场景的两条平行路径。

GPT 擅长创意生成和广度覆盖，Claude 以严谨的逻辑推演和审慎的事实核查见长。将两者组合为 " 生成 + 审核 " 的协同架构，本质上是在对齐学术界 " 同行评审 " 的经典范式——让一个模型产出的成果接受另一个独立模型的审视。

AI 竞争转向 " 系统博弈 "

Critique 的发布不仅仅是一个产品功能迭代，它或标志着 AI 产业竞争的底层逻辑正在发生位移。

第一层位移：从单一模型比拼到多模型编排。

过去两年的 AI 竞争，核心叙事是 " 谁的模型参数更大、 benchmarks 分更高 "。而微软通过 Critique 传递出的信号是：未来竞争的关键不在于单个模型的能力天花板，而在于你能否将不同模型的优势组合成一个高效协同系统。模型编排能力正在成为新的核心壁垒。

第二层位移：从供应商锁定到模型超市。

Critique 通过 Copilot 平台的模型调度能力，实现了跨厂商模型的协同调用。对企业用户而言，这意味着不必再为 " 选择哪个模型 " 而纠结——系统可以同时调动不同供应商的模型优势组合完成任务。这实际上是在推动 AI 市场从 " 模型专卖店 " 向 " 模型超市 " 演进。

第三层位移：AI 幻觉治理进入 " 结构性解法 " 阶段。

此前，应对 AI 幻觉的手段主要依赖模型自身的 RLHF（基于人类反馈的强化学习）对齐和提示工程优化。而 Critique 引入的 " 独立模型审核 " 机制，是一种架构层面的结构性解法——用 Claude 的审慎来制衡 GPT 的 " 过度自信 "，以跨模型对立来实现自我纠错。这比依赖单一模型 " 既当运动员又当裁判员 " 要可靠得多。

"AI 竞争已从单纯的模型参数竞赛转向复杂的系统集成与逻辑验证新阶段。"

随着深度研究系统的落地，微软在企业级生产力工具市场的护城河将进一步加固。对于整个行业而言，这个趋势意味着：评判一个 AI 产品强弱的标尺，正在从 " 跑分 " 转向 " 实战 "。

目前，Critique 与 Council 功能已率先集成至 Microsoft 365 Copilot 的研究助理工具包中，进入早期测试阶段，首批访问权限仅限于加入微软 "Frontier 计划 " 的企业客户。这一选择颇具深意——微软没有直接向消费端铺开，而是优先在高精度需求的 B 端场景验证。

从应用场景来看，这套多模型协作架构的潜在适用范围相当广泛：

• 学术研究领域：通过 GPT 快速生成文献综述初稿，再由 Claude 按照学术标准进行准确性和引证质量审查，有效降低研究过程中 AI 辅助环节的幻觉风险。

• 法律文档处理：在合同审查、法律文书起草等对准确性要求极高的场景中，" 生成 - 审查 " 双保险机制能显著提升产出的可靠性。

• 战略分析与投研：Council 的并行对比机制天然适用于需要多维度交叉验证的复杂决策场景，帮助投资人和企业管理者捕捉单一视角可能遗漏的关键信号。

对于中国 AI 产业而言，微软的这一动作同样具有参考价值。

当前国内大模型赛道竞争激烈，但多数玩家仍困在 " 单模型比参数 " 的竞争框架中。微软的实践表明，多模型协作编排可能是一个被低估的方向——尤其是在国内已有多个差异化能力模型（如 DeepSeek 在推理能力上的突出表现、文心一言在中文理解上的积累等）的背景下，如何构建一个高效的多模型调度与协作平台，或许比执着于训练一个 " 全能冠军模型 " 更具商业可行性。（本文首发钛媒体 APP，作者 | 硅谷 Tech_news，编辑 | 秦聪慧）