Loop Engineering：新的循环收费站

文 | AI 唱反调

6 月份，AI 编程圈被两句话点燃。

Anthropic 的 Boris Cherny 说：我不再给 Claude 写提示词了，我的工作就是写循环。OpenAI 的 Peter Steinberger 说：别再给编程 Agent 写提示词了，去设计循环。

两句话收获千万级曝光，Google 工程主管 Addy Osmani 立刻正式命名：Loop Engineering。" 提示词工程已死 " 的标题铺满屏幕。

剥掉新词，循环（loop）就是一段预先写好的 "包工头" 逻辑：它自己找出有什么活要干，把一块丢给 AI，检查交回来的东西，不合格就带着报错再丢一次，直到通过、或者撞到预设的次数和预算上限才停。

关键区别在于，到底是用户还是 AI 在中间一步步操作。

过去的用法是这样：跟 Claude 说 " 给待办事项写一套增删改查接口 "，它写完，用户一看少了字段校验，再说 " 补上校验和测试 "，它再改，来回拉锯，每一步都得用户盯着、出声。这就是提示词工程：一轮一轮地跟模型对话。

循环把这件事翻了过来。用户写一小段脚本，一次性定好四样东西：目标（接口能跑通、测试全绿）、验收标准（跑一遍 npm test）、能动用的工具、什么时候停（测试通过，或者最多试 50 次）。然后撒手。脚本自己反复提示模型、自己跑测试、不过就把报错喂回去让它改，全程不用人插话，跑完或者彻底卡住了才回头叫人。

用 Boris Cherny 的话说，干活的最小单位变了：从敲一行代码，到写一句提示词，再到写一个循环。用户不再是那个写提示词的人，而是那个写 " 写提示词的东西 " 的人。

说穿了，循环就是一台带模糊判断的状态机。难的从来不是循环本身，是那些防止它在死循环里烧掉两百美元的边界条件。这里记住，后面要考。

但内核其实是旧东西。2023 年 AutoGPT 就试过让 AI 自己跑循环，没验证、没边界，撒开了跑，最后失败了。2025 年 Context Engineering 刚被 Karpathy 背书，2026 年初 Harness Engineering 还热乎着。一个内核是旧概念、只是补上了控制的东西，凭什么 2026 年 6 月突然就需要一个新名字？

技术确实在进化，但采用新的方法是否有必要，答案得在商业里面找。

模型涨不动了

一个全行业的普遍感受是：大模型能力的边际惊喜，正在快速减少。

从 GPT-4 到 Claude 4 再到 Gemini 2，开发者端的体感差距在持续收窄。一年前换模型，输出质量可能跳一档；现在换模型，差别更像这个语法更顺一点，那个注释更规范一点。基准测试上的数字还在涨，但生产环境里的 " 啊哈时刻 " 在变少。

MIT 2026 年初的一份研究指出，随着算力投入增加，顶尖模型与轻量模型之间的性能差距正在收敛，每多投入一美元带来的提升在持续下降。Steve Eisman 在 2025 年底的播客中直言，继续扩大 LLM 规模可能是一条死胡同。Ilya Sutskever 在 NeurIPS 2024 上也表态：预训练的时代即将结束。

但模型在聊天场景里的边际惊喜收窄，不代表它在所有场景里都停住了。Agent 栈的可用窗口，恰好在这个节点打开。工具调用从一碰就碎到标准化的 MCP 协议，长上下文从记不住到百万 token 稳定输出，自我验证从自说自话到写查分离的工程机制。模型本身没有指数级飞跃，但围绕模型的工程基础设施，补齐了。

于是出现了一个微妙的甜蜜点：模型够用到能让循环不崩溃，但又没好到让循环变得多余。模型要是一步到位，根本不需要在外面套一层付费的循环。Loop Engineering 被推销的时机，正好卡在这里。

对 Anthropic 和 OpenAI 这种估值建立在永远增长上的公司来说，模型本身拉不开差距，是最危险的信号。模型是基础设施，利润却不在砖块本身，而在收费站。它们必须让模型流经的管道产生溢价。Loop Engineering，就是这条新管道。

厂商开始卖 " 范式 "

2022 到 2024 年，厂商卖的是模型能力。谁的模型更聪明，谁赢。

2025 年开始，规则变了。模型差距缩小，厂商转而卖 " 使用模型的方式 "。Context Engineering 说，模型已经足够聪明，瓶颈在使用方式，得把上下文装对。Harness Engineering 说，模型已经足够聪明，瓶颈在使用方式，得给 Agent 搭好脚手架。Loop Engineering 说，模型已经足够聪明，瓶颈在使用方式，得把自己升级成循环设计者。

每一轮都在传递同一个潜台词：模型已经足够聪明，瓶颈在使用方式。

这句话未必是假的——如果瓶颈真的从模型转移到了用法，那它就是事实。问题在于厂商怎么用它：它把模型增长放缓的压力，悄悄转译成了用户能力不够的焦虑。用户买的东西，从算力变成了资格——不被淘汰的资格。

纵观近期 AI 发展的时间线，会发现这似乎是一种 " 议程设置 "。2025 年中，Context Engineering 经 Tobi L ü tke 等人推广、由 Karpathy 在社交层背书后，迅速成为 agent 栈的显学。2026 年初，Mitchell Hashimoto 提出 Harness Engineering。2026 年 6 月，Addy Osmani 命名 Loop Engineering，引爆全网。

从 Context 到 Loop，大约九个月。每一轮都有行业顶流背书，每一轮都宣称上一轮过时。

技术迭代的自然节奏从来缓慢。TCP/IP 从提出到普及用了二十年，React 从发布到统治前端用了五年。真正的工程范式迁移，是缓慢的、自下而上的、充满争议的。而 Prompt 到 Context 到 Harness 到 Loop 这条线，是快速的、自上而下的、齐声合唱的。

这里得把话说准。同样这组现象：多家厂商同步、概念整齐递进，既能解释成精心编排，也能解释成另一种可能：几家实验室在同一套工具下，撞到了同一面工程墙，自然收敛到同一个答案。趋同不等于合谋。所以更稳妥、也更站得住的说法是：厂商未必编排了这个节奏，但他们一定在用力利用这个节奏。无论是哪一种，这种节奏看起来都更像品牌的刷新周期，而不是传统工程范式的自然迁移。

更值得注意的是概念和产品发布时间的重合。Anthropic 在 5 月 28 日给 Claude Code 上线了 Dynamic Workflows（动态工作流），让模型自己写编排脚本、在后台调度成百上千个子代理。OpenAI 的 Codex 则在更早的春天就加上了持续目标（goals）能力。产品先备好，再等一个概念来引爆市场，Loop Engineering 的命名，本质上是一次注意力的重新拍卖。有趣的是，赢家总是手握 token 最多的人。

当用户在 X 上争论 Loop Engineering 是不是新瓶装旧酒的时候，已经完成了厂商想要的那件事：把注意力从 " 模型有没有进步 "，转移到了 " 新范式值不值得追 "。

锁定与烧钱

Loop Engineering 表面提高效率，实际上是在两头烧钱：一头是迁移成本，一头是运行账单。

先说锁定。当把提示词写进 SKILL.md、把验收规则写进 CLAUDE.md、把循环逻辑嵌进 Claude Code 的 loop 和动态工作流，用户用的就不只是一个工具，而是在建一个专有架构。循环越复杂、沉淀的规则越多，对这套体系的依赖就越深。

Anthropic 和 OpenAI 的循环组件几乎撞脸：Automations、Worktrees、Skills、Connectors、Sub-agents、Memory，六大件高度一致。两家不约而同，本质上是双向锁定：模型层拉不开差距，就在工程层制造选择成本。选了 Claude Code 的循环体系，迁到 Codex 就得重搭一遍；反之亦然。

一些早期团队的非正式反馈是，把 Loop 引进组织后想再迁出来，耗费的时间和资源远超预期，拖得越久越糟。厂商的算盘不在一次性卖 API，而在让用户每年都为维持现有体系支付工程成本。

比技术债更隐蔽的，是概念债和理解债。

每九个月换一次概念，意味着每九个月团队就要重构一次工作流。Context Engineering 刚搭好的上下文体系，Harness 来了得改；Harness 刚把脚手架搭稳，Loop 来了得再改。厂商不会为这种重构买单，但团队的生产力在概念切换的间隙里被持续消耗。

与之相伴的是代码层面的理解债。循环批量产出的代码没人读，团队对系统的理解深度持续下降。一边追着新概念改工作流，一边对着黑盒代码抓瞎。Addy Osmani 自己也提了这个警告：循环产出越快，用户读懂的比例就越低，最舒适的选择是认知投降：接受循环返回的任何结果。

这不是在庸人自扰。2025 年 Vibe Coding 的余温还在。METR 2025 年 7 月那项随机对照实验发现，有经验的开发者用 AI 工具处理复杂任务，效率反而下降 19%（需要说明：METR 在 2026 年初对该研究的方法提出了保留，结论被修正为 " 尚不能确定 AI 是否提升生产力 " ——这条数据要用，得带着这个保留用）。更稳的是安全侧：Veracode 2025 年的报告显示，45% 的 AI 生成代码通不过安全测试。Lovable 平台也出过应用批量暴露用户数据的事故。

循环把这些问题放大了。有三个坑特别隐蔽：偷懒，50 项安全任务做了 20 项就喊搞定；自夸，给自己的成果打高分；漂移，跑了 47 轮之后，最初的 " 别做 X" 约束悄悄消失。测试通过了，架构却偏了；功能跑通了，逻辑却埋了雷。没有人盯着中间产物，谁也不知道出错的地方是哪里。调试一个跑了 47 轮的状态机，比修好一条 prompt 难 10 倍。

更讽刺的是，概念债的主要受害者是中层开发者。顶层设计者如 Boris，有近乎无限的 token 和完整基建，概念迭代对他只是多一个管理维度；底层写提示词的人反正还没入场；卡在中间的人，刚学会上一轮，下一轮又来了，永远在追赶，永远追不上。

然后是账单，这才是这套范式最直接的代价。

2026 年 5 月，据 The Verge（Tom Warren）报道，微软要求其 Experiences + Devices 部门的数千名工程师，在 6 月 30 日财年末之前从 Claude Code 迁回 GitHub Copilot CLI。微软官方给的理由是工具链统一、想要一个能和 GitHub 一起塑形的产品；但这个动作卡在财年末的时点，被普遍解读为真实动因是成本。要知道，微软自己通过 Foundry 协议向 Anthropic 投了最多 50 亿美元，连它都按不住重度使用的账单。

Uber 的案例更直接。它给约 5000 名工程师铺开 Claude Code 后，四个月就烧穿了 2026 年的全年 AI 预算。采用率从 2 月的 32% 飙到 3 月的 84%，人均月支出 150 到 250 美元，重度用户 500 到 2000 美元，CTO 本人一次两小时的会话就花掉了 1200 美元。管理层把这描述为一个 " 脑袋要炸 " 的时刻。

这些数字在别的文章里是 " 成本陷阱、使用需谨慎 "，在商业视角里，它们是概念迭代的直接成果。

Loop Engineering 的本质，是让用户从 " 按需调用模型 " 变成 " 持续运行模型 "。loop 每分钟跑一次，动态工作流在云端 24 小时跑，几千个 Agent 夜间并行。Anthropic 自己在动态工作流的说明里就直接警告：这个功能会比普通会话消耗多得多的 token，建议先拿小任务试。表面看是技术进步，骨子里是消费模式升级：从 " 买电 " 变成 " 全天候耗电 "。

这就是经济学里的杰文斯悖论：技术效率提升，反而带来总消耗的增长。厂商的收入公式很简单：用户停留时长乘以调用频次乘以 token 单价。Loop Engineering 同时拉升了前两个变量，让 AI 从 " 叫它才动 " 变成 " 它自己一直在动 "。动得越多，账单越厚。

Peter Steinberger 面对 "20 美元套餐根本不可能 " 的质疑，回答：没错，可难道时间就不值钱吗？翻译过来就是：别算 token 账了，算时间账。但时间账是模糊的、感性的、无法审计的；token 账是清晰的、刚性的、每月自动扣款的。厂商希望用户用模糊的时间账，去覆盖清晰的 token 账。

结语

2023 年的 AutoGPT，最早火出圈、让 AI 自己定目标、自己循环干活的开源项目——失败了，因为它没有控制。2026 年的 Loop Engineering 能落地，因为它有控制、有验证、有边界。这是技术层面的真相。

商业层面的真相是另一条：2023 年模型还在快速进步，厂商不需要新概念也能卖；2026 年模型在 chat 场景里的边际惊喜收窄了，厂商需要新概念来拉动新增长，同时把用户锁进需要持续付费的管道层。

这两个真相并不矛盾，它们同时成立。Loop Engineering 既是真实的工程进化，也是真实的商业策略。用户每多写一个循环、每多跑一轮任务，都在帮某家公司的商业模式添一个数字。技术本身是中立的，但技术的命名权、定价权、注意力分配权，从来都不是中立的。

看懂管道的生意，用好管道的价值，同时永远守住自己的判断力。同一个循环，用在自己真懂的活上是杠杆，用来逃避理解就是加速下滑——做看得懂循环的工程师，而不是只会按下运行键的操作员。别让自己的职业生涯，绑定在别人的增长曲线上。

说到底，工程师才是那个判官。但判官也得交电费。判官得知道，电费为什么交、交给了谁、值不值得。

宙世代

一起剪

相关标签