在人工智能技术持续演进的当下,大模型竞赛成为行业关注的焦点。人们普遍认为,参数越多、算力越强,模型的能力就越强。然而,在 2026 年 6 月 10 日的亚马逊云科技大语言模型全球联赛这一重要赛事中,神州数码旗下神州问学团队以绝对优势取得胜利,为行业提供了一个全新的视角:参数规模不等于能力上限,真正决定模型实战表现的,是数据价值密度与流程创新能力的结合。
资料显示,亚马逊云科技大语言模型全国联赛的前身是自 2018 年推出以来,已经吸引了超过 56 万名开发者参与,覆盖全球数千个活动和比赛的人工智能赛车竞赛。
2024 年亚马逊云科技在 Invent 2024 期间推出了亚马逊云科技大语言模型全国联赛。在这次联赛中,参赛选手的任务是利用所学的工具和技术对特定领域的 Meta Llama 3.5B 基础模型进行定制化调整。提交的微调模型将与一个更大的 70B 参考模型对比,通过一种称为 "LLM-as-a-Judge" 的方法来评估回答的质量。如果微调后的模型所提供的答案被认为比更大规模的模型更加准确和全面,那么参赛者将在相应的问题上获得胜利积分。
神州数码作为亚马逊云科技中国区第一批通过 GenAI 能力认证的伙伴,受邀参加本次比赛。
这场比赛的规则本身就极具挑战性——使用仅 3.5B 参数的小模型,与 70B 级别的超大规模模型正面交锋。而 3.5B 基础模型本身存在以下问题:
•语言劣势:评测全部采用中文,而 3.5B 模型在中文理解方面存在明显短板;
•知识不对等:题目内容聚焦于大模型行业的专业知识,这正是 70B 模型训练时的核心优势领域;
•资源稀缺:可用原始数据仅有 20 条,微调时间只有短短 3 小时。
面对以上问题,神州问学团队快速设置了一套系统化、精细化的技术方案,最终以 53% 的赢率取得第一轮胜利。
神州问学团队提交的模型赢率 53% 位居第一
针对 3.5B 模型在中文支持、逻辑推理、多跳任务和知识广度上的四大短板,神州问学采取了三个关键策略:
一是,知识蒸馏的 " 精准手术刀 "。
神州问学团队为蒸馏的知识设计了 " 问答—逻辑链—证据片段 " 的三元组知识形式,并通过多次人工和机器的交叉检查确保注入到 3.5B 模型中的质量。
这一过程并非简单的知识复制,而是像外科手术一样精准地提取并植入关键信息。同时,他们还构建了 " 知识拓扑网 ",补充相关文档资料,从而有效扩展了小模型的知识覆盖范围。
二是,思维链的 " 量子纠缠 " 改造。
整场比赛只有三小时,为 3.5B 模型注入思维链是否可行是对团队整体战略,技术方案,执行力的考验。神州问学团队面对 3.5B 基模的天然不足,采用部分样本轻思考的方案,对精选的样本注入拆解问题、检索概念、验证逻辑、生成结论的能力,使 3.5B 模型在三小时内具备了远超其参数规模的推理能力。
三是,动态提示词的 " 战场指挥官 " 系统。
在下午进行的现场评测环节,评委和观众共同见证了一场高水平的实时应答比拼。面对 6 道题目,各参赛队伍有 60 秒时间理解和设计提示词。神州问学团队以深厚的大模型落地经验面对 6 道题目分别给出了针对性的 Prompt,在 3.5B 小模型 200 字小窗口的苛刻条件下对每一条问题都给出的优质回答,获得现场评委和 AI 双高分,最后以 179 分取得绝对胜利。
神州问学团队以 179 分位居第一
过去我们习惯于 " 参数越大越好 " 的思维定式,但在实际业务中,700 亿参数的大模型虽然强大,却往往存在大量冗余计算。相比之下,一个经过知识提纯、架构锐化和持续进化的小模型,在部署成本、响应速度和可控性方面更具优势。
这场比赛的胜利也彰显了神州问学卓越的小模型调优能力,当行业沉迷于千亿参数竞赛时,神州数码凭借深厚的产业洞察直指本质:企业级 AI 落地的核心矛盾,在于技术能力与场景痛点的精准适配——而非算力的竞赛。 其创新性架构构建了双重认知引擎:以通用大模型为基座拓展认知广度,以精调小模型为触手穿透场景深度,再通过动态路由实现算力的智能协同。
这套 " 广度奠基、深度攻坚、资源智配 " 的三位一体范式,助力企业 AI 的真正落地。
在这场以小博大的比赛中,神州问学展示的不只是技术实力,更是一种思维方式的转变。AI 的未来,不在于谁拥有最多的算力,而在于谁能用最少的资源创造最大的价值。
随着 AI 进入 2.0 时代,真正的竞争将不再局限于模型大小,而是转向如何高效、精准地解决实际问题。
登录后才可以发布评论哦
打开小程序可以发布评论哦