单台昇腾服务器可跑！全国产算力加持的大模型又升级，推理性能提升50%

新模型多项测试可媲美国际顶尖模型。

作者 | 程茜

编辑 | 李水青

智东西 2 月 11 日报道，今日，科大讯飞基于全国产算力训练的星火 X2 大模型正式发布。

星火 X2 通用能力实现提升，在其公布的数学、推理、语言理解、智能体等能力测评上可以媲美 GPT-5.2、Gemini-3-Pro 等模型。星火 X1.5 于 2025 年 11 月 6 日发布，仅三个月后星火系列新旗舰模型就上线了。

科大讯飞官方公众号显示，星火 X2 通过量化单台昇腾服务器即可运行，其采用 293B MoE 稀疏架构，结合权重量化、低精度 KVCache、VTP（Virtual Tensor Parallel）、分层通信等多种工程化创新，实现了国产大 EP 并行部署，推理性能相比 X1.5 提升 50%。

除通用能力升级外，星火 X2 还在医疗、教育、汽车、智能体等领域针对讯飞的产品实现了升级。

目前，星火 X2 的最新能力可直接在讯飞星火网页版和 APP 体验，全新 API 也已上线讯飞开放平台。

01.

能解超难推理题

多项测试可媲美 GPT-5.2、Gemini-3-Pro

智东西实测了一波星火 X2 发现，新模型在回答数学、推理难题时，拆解问题、规划步骤的思路清晰。

首先，智东西上传了一道设计概率难题，提示词为 " 某工厂生产的产品次品率为 5%，随机抽取 200 件产品进行检验。求恰好有 10 件次品的概率，若要保证 95% 的把握认为次品率不超过 5%，至少需要抽取多少件产品？"

星火 X2 先拆解了一共有几个问题以及要选择哪一种方式求解，最后给出了恰好有 10 件次品的概率为 12.8%，至少需要抽取 59 件产品，才能有 95% 的把握认为次品率不超过 5%。

然后，智东西上传了一道推理难题，提示词为 " 有两座城：真城人永远说真话，假城人永远说假话。一个人来自其中一城，你只能问一个问题，让他回答是 / 否，就能判断他来自真城还是假城。你该问什么问题？"

星火 X2 在回答时分析了问题可以利用的条件，并列出了几种可能的情况，然后一步步找到最清晰、简洁的问法。

值得一提的是，智东西在体验时选择的是 " 快速生成模式 "，但星火 X2 仍将中间拆解问题、寻找思路、排除错误思路等过程进行了详细呈现。

在讯飞公布的多项基准测试成绩中，星火 X2 在语言理解、逻辑推理、数学、翻译、多语言等方面，均超过了 DeepSeek V3.2 和 Qwen3 Max，且与 GPT-5.2 和 Gemini 3 Pro 相比得分差距较小。

外部公开高难任务效果对比上，星火 X2 在数学领域整体表现较好，仅次于 GPT-5.2，在综合知识和复杂问答上，星火 X2 与 GPT-5.2、Gemini-3-Pro、Qwen3-Max 差距不大。星火 X2 的代码和推理能比，相比 GPT-5.2、Gemini-3-Pro 有一定差距。

02.

讯飞晓医解答率均超 80%

能同时对比两张检查单

面向垂直领域，星火行业大模型在教育、医疗、司法、汽车交互、企业智能体应用等场景的效果也实现了升级。

在医疗领域，星火医疗大模型 X2 在智能健康分析、智能报告解读、运动饮食建议、辅助诊疗、智能用药审核等关键任务上，表现均超越 DeepSeek V3.2、GPT-5.2 和 Qwen3-Max。

在此基础上，讯飞晓医 App 在多轮主动问诊、多轮咨询问答、问用药、检查检验单解读、体检报告单解读等健康咨询任务上的表现升级，解答率均超过 80%。

科大讯飞官方放出了讯飞晓医解读检验单的案例，其上传了两份患儿不同时期的血常规结果，讯飞晓医会进行联合解读，动态分析关键指标的变化趋势，结合患儿年龄对检验报告中的不正常数据进行解读。

不过当智东西更新了讯飞晓医 App 后，发现其下方显示的是 " 深度思考（X1）"。

03.

教育汽车智能体平台均升级

基于星火 X2 的汽车智能座舱交互系统、科大讯飞 AI 学习机、星辰 Agent 平台均实现了升级。

在教育领域，星火教育大模型 X2 数学步骤级批改、错因定位等能力升级。面向学生自主学习场景，科大讯飞 AI 学习机在 1 对 1 精准学、答疑辅导和互动课等效果持续提升。

基于星火 X2，在汽车领域的 2B、7B、30B-A3 等多尺寸中小模型同步升级，使得汽车智能座舱交互系统在人人 / 人机对话判断、模糊意图理解、高情商回复等方面交互体验显著提升。

星辰 Agent 平台进一步强化了 " 会思考能执行 " 的精品智能体构建能力。当前该平台的智能体数量已经超过 130 万，已整合语音交互、语音识别、图像理解等百余种精品开放平台能力。

04.

4 大技术加持：涵盖算法

数据集、专业思维链强化学习

星火 X2 的升级得益于其背后的四项工程级技术：

训推采样校准强化学习算法：针对 MoE 大模型 RL 训练中的训推分布不一致问题，提出训练与推理概率重采样自适应校准算法，提升强化学习训练准确率和稳定性。

递归式高难数据合成方法：针对高难任务数据稀缺问题，设计多轮迭代式推导的数据合成方案，实现推理错误逐步纠正与收敛，持续构建稀缺型高质量数据，提升模型深度推理准确率。

多阶段 RL 高吞吐采样方法：设计 P/D（Prefill/Decoder）两阶段分离的多阶段推理采样方案，解决国产化平台强化学习高吞吐采样情况下的效率干扰问题，训练效率提升 10%。

服务高性能部署优化算法：通过模型轻量化压缩，完成国产机器的单机大 EP 并行部署，推理性能相比星火 X1.5 提升 50%。

05.

结语：行业高专业场景需求凸显

大模型解决方案逐渐成熟

此次科大讯飞星火 X2 及其多个行业大模型升级，是面向关键行业落地的实用化升级，其面向教育、医疗、汽车、智能体等高专业性、高体验性场景的升级，或意味着，可以为行业刚需问题提供可行的技术方案。

从长远和产业发展的宏观视角来看，如何让大模型深度嵌入千行百业，切实解决行业痛点、赋能业务流程，才是决定其真正价值与发展潜力的核心命题。科大讯飞此前的技术积累以及与产业客户的结合，或称为率先兑现 AI 红利的关键。

宙世代