北航领衔发布300页代码智能综述：从基础模型到智能体，一次读懂Code LLM全景图

一文梳理代码智能领域技术链路。

这篇学术论长文由北京航空航天大学复杂关键软件环境全国重点实验室领衔、联合阿里巴巴、字节跳动、腾讯、华为、NUS、Monash 等近 30 家机构共同撰写，在 AI 圈引发了许多讨论。

《From Code Foundation Models to Agents and Applications》一文是对过去几年代码智能领域的一次系统梳理：模型、任务、训练、智能体、安全与应用都被串联成了一条完整、连贯的技术链路。

整篇论文不仅回顾了技术发展，也通过大量实验、框架和案例解释了 " 哪些方法真正有效、哪些方向正在变得重要 "，更像是一份面向产业的实践指南。

编程范式正在迎来新的发展阶段

论文从一条直观的演化路径切入：从手动编码、IDE 辅助，到框架驱动，再到如今的AI-Assisted 协作式开发。过去我们通过代码描述需求，而现在的趋势正在转变——开发者更习惯于用自然语言表达意图，由模型完成更大比例的实现。

随着上下文窗口不断增大、工具调用能力增强，这种协作方式正在悄然改变工程师的习惯。

当模型能够理解项目结构、掌握 API、自动补全过程时，开发的起点就不再是 " 写代码 "，而是组织需求与意图。

这类范式变化带来的冲击，比任何一次工具升级都更深刻。

论文开篇的时间线，让人意识到：我们正处在编程方式跃迁的关键节点上。

代码基础模型：技术底座是如何搭建的？

论文首先搭建了代码基础模型的整体蓝图。

它不仅比较了通用 LLM 与代码专用模型的训练流程，也梳理了模型依赖的核心语料：GitHub 代码、Issue 讨论、StackOverflow、API 文档……这些资源共同构成了模型的工程世界知识（Software World Knowledge）。

为了让模型获得结构化理解能力，预训练中大量使用FIM（Fill-in-the-Middle）、多 Token 预测（MTP） 等任务，让模型能处理跨行、跨段落的复杂结构。

同时，从 CodeBERT、CodeT5 到如今主流的 Decoder-only 与MoE 架构，模型结构的演化也体现了对代码任务需求的不断适配。

把这些内容结合起来，你会发现：所谓 " 代码智能 "，并不是单点突破，而是整个训练体系在长期协同演进的结果。

代码任务与基准：从基础补全到工程级理解

代码模型的评测体系一直较为碎片化。论文将任务按粒度系统整理：从函数级、跨文件，到工程级和智能体级任务，每一层都有对应的 benchmark。

HumanEval、MBPP 仍是基础指标，但它们只反映模型的 " 底层能力 "。

在更真实的工程语境中，repo-level 长上下文任务、SWE-Bench、跨文件补全才能真正体现模型是否理解软件结构。

论文同时介绍了 LLM-as-a-Judge、多智能体评测、执行级校验等方法，使评估更接近实际开发场景。

这一部分很清楚地呈现出一个结论：模型能不能写好代码，取决于它能否处理真实项目的复杂依赖，而不仅仅是解决几个小函数。

模型对齐与增强：让模型 " 更像工程师 "

论文对模型对齐与能力增强的内容进行了系统总结。

从 SFT、推理数据蒸馏，到多语言与多模态扩展，每一步都围绕同一个目标：让模型更理解工程，而不是仅生成 " 看起来像代码的文本 "。

其中一个关键点是repo-level 训练。单个函数的数据远远不够支撑复杂软件任务，模型必须理解模块之间的依赖、目录结构和项目组织方式，才能在真实场景中表现稳定。

在增强推理能力方面，多轮提示、链式思考数据、自动生成高难度样本等方法，也成为提升性能的新趋势。

强化学习部分则系统比较了 PPO、GRPO、RLOO、Reinforce++ 等策略的表现。论文特别提到RLVR（基于可验证奖励的 RL）——通过单元测试作为奖励信号，让模型基于真实执行结果学习正确性。

这是近两年代码大模型性能提升最显著的方向之一。

软件工程智能体：从写代码到完成整个工程流程

当模型以智能体身份参与软件工程流程时，代码智能的潜力被进一步放大。

论文从需求理解、代码定位、跨文件生成、自动测试、APR（自动修复）、日志分析等任务切入，为每一步构建了对应的 Agent 框架和案例。

在这些应用中，模型不再是单纯的代码生成器，而是一个需要连续决策、实时利用环境反馈的工程参与者。论文指出，当前智能体的最大瓶颈不是模型能力，而是如何有效利用环境信号，例如测试结果、工具调用反馈、IDE 状态等。

代码在通用智能体体系中的新地位

论文也探讨了代码在更通用智能体生态中的新角色。

对许多智能体来说，代码不只是输出物，更是一种用于表达工具调用、逻辑执行和长期状态管理的通用语言。

这意味着未来的智能体体系，可能会越来越依赖以代码为核心能力的模型。

擅长代码的模型在规划、工具使用、多模态协作中具有天然优势，也更容易成为智能体系统的底层能力模块。

安全与治理：更强的能力也意味着更高的风险

代码模型的安全问题比自然语言模型更复杂。论文将风险拆分为数据安全、模型安全和执行安全三个层面：包括训练数据的许可证风险、模型生成的潜在漏洞、提示攻击、环境操控、以及代码执行带来的系统级风险。

对应的治理手段包括数据审计、安全微调、偏好对齐、红队测试、静态 / 动态检测、安全沙箱等机制。随着模型越来越多地被集成进工程环境，这些安全能力正成为基础设施的一部分。

训练配方：从经验技巧走向可复用方法论

论文后半部分总结了大量高价值训练经验，包括预训练的数据设计、SFT 的关键超参、MoE 的稳定性策略、RL 的 rollout 与奖励设计等。结合论文中的扩展定律和敏感性实验，我们可以看到：

哪些阶段数据投入最划算，哪些阶段会出现收益下降；

哪些超参对性能影响巨大，哪些可以灵活调整；

不同规模和架构的模型在训练中的 " 性能拐点 "。

这些内容将原本分散的 " 炼丹经验 " 凝结成了一套可系统复用的方法论，对准备训练代码大模型的团队极具参考价值。

应用正在加速落地：IDE、云开发到企业级协作

论文最后回到应用层面。从 IDE 插件、协作编码，到自动测试、自动修复、形式化验证等任务，代码大模型已经开始进入软件工程的多个关键环节。

随着智能体框架与工具链不断成熟，代码智能也正从 " 辅助工具 " 逐渐成为开发流程的一部分。

未来的软件工程可能会继续朝意图驱动、协作式编码的方向演化，而模型在其中的角色很可能会越来越重要。

这篇超过 300 页的长文，将代码智能的关键模块按逻辑串联起来：从基础模型、代码任务，到训练方法、智能体体系、安全机制与工程应用，勾勒了一张完整、系统、可实践的技术地图。

无论你关注模型训练、工具开发，还是想理解未来软件工程的演化方向，这篇文献都值得完整通读！

论文地址 : https://arxiv.org/pdf/2511.18538

hf daily paper: https://huggingface.co/papers/2511.18538

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签