SuperCLUE最新评测：360zhinao3-o1.5中文精准指令遵循国内第一

近日，中文精确指令遵循测评基准（SuperCLUE-CPIF）正式发布，360zhinao3-o1.5 以 78.97 分位居国产大模型第一，在任务类型、指令数量两类划分中均为国内榜首，其在精确指令遵循上的卓越表现，正是 AI 技术提升 " 可用性 " 和 " 实用性 "、从实验室走向大规模产业应用的关键一步。

本次测评涵盖 GPT-5.1 ( high ) 、Gemini-3-Pro-Preview、GPT-5 ( high ) 、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning 等共 15 个国内外模型参与。基于实际生产环境特点，SuperCLUE-CPIF 重点评估大型语言模型（LLM）在中文环境下精确遵循复杂、多约束指令的能力。测评结果显示，国产主流大模型中，360zhinao3-o1.5 以 78.97 分位居国产大模型第一，ERNIE-X1.1 和 DeepSeek-V3.2-Exp-Thinking 分别以 75.90 分和 74.36 分位居国内二、三。

SuperCLUE-CPIF 测评截图

360zhinao3-o1.5 指令遵循训练部分的工作已经发布在论文 Light-IF 系列上。该模型直面现有大语言模型在处理交织多重约束的复杂指令时普遍存在的 " 懒惰推理 " 现象，通过自动化指令构建与难度感知强化学习两大核心技术，驱动模型从被动执行向 " 主动检查 - 修改 - 再检查 " 的演进，显著提升了在复杂指令下的精准遵循度。

Light-IF 系列模型论文发表

另外，360zhinao3-o1.5 的训练模型 Light-IF 论文曾被顶会 AAAI 2026 成功收录。据悉，AAAI 2025 共收到 12957 篇有效投稿，录用 3032 篇，录取率为 23.4%，其中 Oral 论文占比 4.6%。而 AAAI 2026 的投稿量进一步飙升至 23680 篇，仅录用 4167 篇，录取率降至 17.6%，Oral 录用率更是进一步降低。Light-IF 能在如此激烈的竞争中脱颖而出，可见其在精准指令遵循上的突破性。值得一提的是，Light-IF 系列模型已陆续在 Hugging Face 开源，供全球开发者使用、对比与复现。

将小参数模型的能力推向极致，是 360 智脑团队持续深耕的技术路径。此前，360 与北京大学联合研发的 Tiny-R1-32B 模型，仅以 5% 的参数量便在数学等领域逼近了千亿级模型的性能，是一次在模型优化与融合上的深厚积累。这种对 " 小而精 " 垂类模型的持续打磨，为 AI 智能体（Agent）的爆发奠定了坚实基础。

宙世代

一起剪