量子位 9小时前
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

首个拿下国际物理奥林匹克竞赛 IPhO 2025 理论考试金牌的开源模型,出自国产。

上海人工智能实验室团队推出新模型家族,代号P1

在 IPhO 2025 理论考试中,P1-235B-A22B 取得 21.2/30 分,成为首个达到该金牌线的开源模型,仅次于 Gemini-2.5-Pro 与 GPT-5。

不仅如此,引入 PhysicsMinions 智能体框架后,P1 成绩进一步提升。

在团队构建的包含最新 13 项顶级物理竞赛的 HiPhO 基准上,P1-235B-A22B 平均成绩从 35.9 提高到 38.4,在所有 33 个顶流模型中排名第一,超过 Gemini-2.5-Pro(37.7)和 GPT-5(37.4)。

并且,在中国物理奥林匹克 CPhO 2025 人工评分中,P1-235B-A22B 获得 227/320 分,显著超过当届全国金牌第一名人类选手(199 分)。

开源方面团队也做得很彻底,从模型、算法到评测集、再到智能体框架,都将全链路开源。

下面具体来看 P1 究竟是如何做到的。

多阶段强化学习 + 智能体框架

为让模型学习类似人类顶尖学生的推理思路,团队首先构建了一个高质量的物理训练数据集。

该数据集由 5065 道奥赛级文本物理题构成, 其中包含 4126 道物理奥赛真题与 939 道竞赛教材题目,覆盖力学、电磁学、热学、光学、近代物理等五大领域和二十五个子领域。

这些题目极长而复杂,平均题干 367 tokens,最长 3386 tokens;平均解答 349 tokens,最长 5519 tokens。

每一道都包含题目(Question)、完整专家解答(Solution)以及可规则验证的标准答案(Answer)。

为了确保数据质量,团队采用 Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o 三大模型交叉验证答案、人工检查 OCR 错误、删除无法规则判题的题目 .

构造数据只是基础。

随后,P1 采用了多阶段强化学习流程进行训练。

物理解题被形式化为一个序列决策问题:模型在每个状态下生成下一个 token,直到输出完整解答;最终奖励则由模型解出的答案是否正确来决定。

作者采用了基于策略梯度的方法进行训练,但并非直接使用 PPO,而是采用了为长链推理优化过的 GSPO(Group Sequence Policy Optimization)。这一方法不是对单条序列进行更新,而是在每个题目上采样若干条完整解答,把它们作为一个 group,通过它们的相对收益构建优势函数。这样可以缓解物理题奖励极其稀疏、解题过程成千上万 token 但只在最后一步有信号的问题。

为了让 GSPO 能稳定工作,团队构建了一套精密的奖励系统和判题器。在训练阶段,模型的最终答案必须严格按照预设格式输出。这样的结构化输出使得判题器可以可靠地提取模型答案,再通过符号计算工具判断模型解答与标准答案是否等价。

然而,物理题往往包含多个子问题,或者需要给出多个最终结果。为适应这种结构,团队采用类似程序评测中 " 测试用例式 " 的奖励聚合方式,将最终奖励定义为:

整个训练过程中,作者严格只使用规则判题器,以避免模型试图通过学习某种写作风格来 " 讨好 " 模型型判题器。

随着训练推进,模型会出现可学习性下降,表现为梯度无法指向有效方向、熵急剧下降、模型只学到模板化表达等。

团队针对这一点提出了两个创新处理方法。

其一,基于题目难度(以基座模型的多采样通过率衡量)进行动态数据筛选。那些基座模型完全做不出来的题,由于全部生成轨迹奖励都为零,会让 RL 难以学习;那些太容易的题则会降低多样性、诱发熵坍塌。团队因此设定只保留通过率在 0 到 0.7 之间的题目进入训练。

其二,随着训练进行逐步扩展模型的探索范围:一方面增加每题采样的解答条数,使模型更有机会找到 " 高质量轨迹 ";另一方面扩大模型可生成的最大长度,让模型能完成越来越复杂的问题

整个 RL 训练都通过这种多阶段策略推进,使模型在能力提升的同时保持稳定的可学习性。

另外,训练时使用的概率与推理时生成时的概率存在不可避免的偏差。

由于推理往往通过 vLLM 或 SGLang 等专门推理引擎进行,而训练则在 Megatron 或 FSDP 框架中完成,二者的浮点实现存在微小差异,模型在训练中看到的 " 旧策略 " 与真实采样策略并非完全一致。

为此,团队引入了 Truncated Importance Sampling   ( TIS ) ,用一个被截断的策略比重来校正这种偏移。

在推理阶段,P1 引入了专为物理推理设计的协同进化多智能体系统—— PhysicsMinions,以进一步提升解题质量。

PhysicsMinions 在原设计中由三个交互式模块组成:视觉工作室(Visual Studio)、逻辑工作室(Logic Studio)和审查工作室(Review Studio)。

Visual Studio 会首先观察、验证并反思输入内容,将其转化为结构化信息,再交给 Logic Studio。Logic Studio 中,solver 会生成初始解答,而 introspector 则通过自我改进机制进一步优化解答。随后,解答将交由 Review Studio 进行双阶段审查,Physics-Verifier 负责检查物理一致性,General-Verifier 则进一步检查逻辑、推理过程和计算细节。

如果任一审查阶段未通过,系统会返回一份详细的错误报告给 Logic Studio,由 introspector 根据报告修正解答,并再次提交给 Review Studio。

这一流程会不断循环,直到解答连续通过预设次数的审查(CV),CV 也是系统中唯一的超参数。

团队特别指出,由于 P1 是纯文本模型,系统中的 Visual Studio 被关闭,但 Logic Studio 与 Review Studio 的协作仍能显著提高推理稳定性与最终表现:

他们在 Logic Studio 中实例化 P1 作为 solver,并在 Review Studio 中以 P1 分别担任两个审查器,从而完成 PhysicsMinions 内的推理协同过程。

单一模型,13 场比赛取得 12 金 1 银

实验阶段,团队构建了一个新的高难度评测集 HiPhO,用来对 P1 系列模型进行系统性测评。

同时将其与包括 GPT-5、Gemini-2.5、Claude-4-Sonnet、Grok-4、DeepSeek 系列、Qwen3 系列在内的 33 个模型( 11 个闭源 22 个开源)进行了全面对比。

HiPhO 覆盖了 2024 – 2025 年最新 13 场物理赛事的理论题,包括 IPhO、APhO、EuPhO 这样的国际赛事,以及 NBPhO、PanPhO、F=MA 等区域性高难赛事。

在统一的评分体系下,P1-235B-A22B 单一模型(不使用多智能体)就已经在 13 场比赛中取得 12 金 1 银,与 Gemini-2.5-Pro、Gemini-2.5-Flash-Thinking 并列第一(GPT-5 11 金、Grok-4 10 金、Claude-4-Sonnet-Thinking 8 金)。

在 IPhO 2025 中获得 21.2/30 分,排名第三,仅次于 Gemini-2.5-Pro 与 GPT-5,是第一个达到该金牌线的开源模型。

同时,轻量级模型 P1-30B-A3B 的成绩同样亮眼:8 金 4 银 1 铜,排名开源模型第三,超过 o4-mini、Claude-4-Sonnet 等闭源模型。

与 PhysicsMinions 框架结合后,P1-235B-A22B 分数从平均 35.9 提升到 38.4,超过 Gemini-2.5-Pro(37.7)与 GPT-5(37.4),成为整体第一。

团队进一步在 CPhO 2025(中国物理奥林匹克竞赛)上评估了 P1-235B-A22B。

在理论考试中,P1-235B-A22B 得分为 227/320,由人类专家严格按照官方评分标准进行评阅。这个分数显著高于当届人类金牌第一名的 199 分。

此外,论文还展示了一个有趣的效应:

团队通过专门的数据集对模型进行后训练,强化其物理解题能力。结果发现,这样高度定向、强调物理推理结构的训练不仅没有损害模型的通用能力,反而让 P1 在数学、STEM、代码和通用推理多个任务上都比其基座模型表现更佳,说明复杂物理推理训练具有跨领域的迁移价值。

团队简介

P1 团队来自上海人工智能实验室,论文共同一作有三位。

Jiacheng Chen,香港中文大学计算机科学与工程学系的博士生,本科毕业于华南理工大学。

其本人主要研究方向为自然语言推理和强化学习。

Qianjia Cheng,现为浙江大学博士生,本科毕业于北京航空航天大学,曾和 AI 大牛陶大程共同发表过论文。

Fangchen Yu,香港中文大学(深圳)计算机与信息工程博士生,2020 年本科毕业于中国科学院大学。

他对机器学习有广泛兴趣,特别关注 AI for Science、(多模态)大语言模型,以及面向人工智能的统计方法。

论文链接:https://arxiv.org/abs/2511.13612

项目主页:https://prime-rl.github.io/P1/

参考链接:

[ 1 ] https://jc-chen1.github.io/

[ 2 ] https://openreview.net/profile?id=~Fangchen_Yu1

[ 3 ] https://openreview.net/profile?id=~Qianjia_Cheng1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

聊 AI,当然得来量子位 MEET2026 智能未来大会

张亚勤、孙茂松等首波 AI 行业重磅嘉宾已确认出席,还有更多嘉宾即将揭晓  了解详情

  12 月 10 日

北京金茂万丽酒店

,期待与你共论 AI 行业破局之道  

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 物理 竞赛 上海
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论