字母榜 5小时前
一曲新词酒一杯,喝到Harness我就醉
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 字母榜

现在 Harness 已是 AI 业界的热词。Anthropic 和 OpenAI 在二三月间于官网技术博客上发文介绍后,如今人人都在聊。

AI 明星林俊旸近日于社交媒体上转发一篇斯坦福大学研究人员的 Harness 新产品论文时称:" 现在模型 +harness 的模式已经超过单纯的 AI 模型。Harness 的设计和质量能显著影响 AI 智能体性能。开发 Harness 是正确的道路 "。

当概念已经被炒热成这样,那么就需要捋清概念:何谓 AI 的 Harness?

Harness 起源:拿 AI 管 AI 写 AI

AI 现在是产学研齐头前进的行业,说概念,先从实例和溯源说起。

Anthropic 的 Claude Code 现在是 AI 智能体编程的头部产品。Claude Code 的爸爸、从原初雏形至今的创作者和负责人鲍里斯 · 切尔尼(Boris Cherny)在社交媒体和出席各种播客节目时详细描述了自己开发 Claude Code 的历程。

在切尔尼的描述中,工作量增加后,团队成员开始用 Claude Code 写 Claude Code 自己的代码、并用 AI 管理写代码的 AI。

切尔尼说,自己会在工作机器上开五个以上终端标签页,每个标签页里都是一个独立运作的 Claude Code 副本。如果终端标签页不够使,他将编程任务 " 溢出 " 进 Claude Code 的 Web 或桌面端 app,和标签页的子副本都是隔离分别运行。

每次写码从进入总管这些副本的 Claude Code 的计划模式(Plan Mode)开始,订好工作流程:

第一批 Claude Code 的子副本写代码。

第二批子副本做检查代码的评审(Reviewer),关注代码的边界条件、风格一致性和可维护性等易失误处。

第三批子副本再审核第二批代码的工作是否符合 md(Markdown)文件的要求。

子副本们之前的常见错误、期望达到的代码风格、常用命令与文件目录、动作禁则,简洁概括后写入总管的 Claude Code 的 md 文件中,作为以后 AI 自动写码的指导。

" 用 AI 管 AI 写 AI 代码 " 的模式下,切尔尼个人每天能发出 10-30 个合并代码的拉取请求(PR),数月内不用手动写码,效率激增。依靠这种模式,Anthropic 才能达到现在几乎隔日一次重大更新的产品发布频率。

如果熟悉 Anthropic 的官网更新动态,就会发现《为长期应用运行开发的 Harness 设计》(Harness design for long-running application development)这篇 3 月热门文章的内容,切尔尼提前两三个月在播客上就唠过了。

3 月热文中的 " 三智能体 "Harness 架构,三层的规划者(Planner)、生成器(Generator)、评估器(Evaluator),基本是切尔尼上节目时的大白话内容,不过做了概括后再包装。

Harness 本质:高成本高效率的多智能体架构

切尔尼描述的这个过程就是 Harness 的本质。Harness 不只是自动完成任务的子智能体、不只是总管子智能体工作的上层智能体、也不只是告诉 AI 工作事项的 md 文件,而是总括了这些的 AI 智能体自动运转的整体流程。

使用 Harness 这个字眼来描述此流程,是借用电气工程中的 " 线束工程 " 概念。电气工程的 " 线束 " 统筹的是线路与信号走向,AI 智能体的 Harness 统筹的是子智能体与模块的动作功能,殊途同归。

当然,真要咬文嚼字起来,Harness 可以翻译成中文中的 " 輐 " 与 " 轭 ",是连接马匹与车身的传动兼指向车具。不过古天主教和尚的 " 若无必要,勿增实体 " 原则在六七百年后的 AI 时代更加有用,不用新造字眼给大众增加理解负担,真要中文意译,用电气工程中已通行、最简洁的 " 线束 " 最合适。

如果更仔细考证技术底蕴,能发现在 2025 年 6 月中 Anthropic 发布的官网文章《我司如何构建多智能体》,已经开始尝试多智能体 Harness 架构。以 Claude Opus 4 为上层智能体底座、Sonnet 4 为子智能体底座的多智能体架构,在他们的内部评测中,性能比 Opus 4 单一模型强出 90.2%。

高效率的同义词往往是高成本。2026 年 3 月 Anthropic 的 Harness 文章中示例,用同一组提示词,让 AI 自行编写一个 2D 复古小游戏。以此对比 Opus 4.5 单一模型和多智能体 Harness 架构的性能:单一模型运行 20 分钟,成本 9 美元,成品不可用;全套 harness 运行 6 小时,成本 200 美元,成品可用。

该文除了展现 Harness 架构性能,也以此做了 Opus 4.6 更新的广告:"Opus 4.6 计划更仔细,运行智能体任务的时长更久,能在更大的代码库中更可靠地运行,并有更好的代码审查和调试功能来自我纠正。"

用白话说,就是更强的模型才能驱动更高效的 Harness,有多快马跑多快车。从 2025 年 6 月至今,多智能体架构耗费 token 的速度始终是普通聊天机器人的 15 倍以上,但将工作流拆分成子任务集合完成的效率也不减此数。顾客们要不要掏钱惠顾模型厂,须有一番思量。

Harness 精髓:用 AI 体现传统软件工程要则

00 后程序员赵晨阳现在由开源项目 SGLang 衍生的 " 基数方舟 AI"(RadixArk AI)公司供职,按他在社交媒体上的解析,现在业界狂炒 Harness,反而很不 AI 风,是叠床架屋地增加智识负担。

赵晨阳认为,所有 Harness 的关键点,都是用 AI 重新实现了一遍 " 古代 " 传统软件工程原则中的要点:

不在 AI 聊天机器人的每次对话纪录用提示词重复阐明工作准则,而将准则保存在 AI 智能体的 md 文件,这是 " 文档即代码 "(docs-as-code)原则在 AI 中的体现;

不期待一个超级 AI 模型解决整个工作任务,将工作任务拆成分隔的专门版块,让单个子智能体只处理单一版块,这是 " 关注点分离 "(separation of concerns)和 " 单一职责 "(single responsibility)原则在 AI 中的体现;

将 AI 子智能体在工作流中的权责结构化,不让总管的 AI 上层智能体自行猜测,这是 " 左移约束 "(shift-left constraints)原则在 AI 中的体现。

Anthropic 的研究员尼古拉斯 · 卡利尼在 2 月底公布的实验,也体现了此原则。卡利尼使用了约 2 万美元的 API 总额度、并发约两千次 Claude Code 会话、并行 16 个 Claude Opus 4.6 驱动的子智能体、用时两周、生成了 10 万行 Rust 代码,最后构建出可运行 C 编译器。

按 Anthropic 官网上的卡利尼自述,他的精力不在写提示词上,提示词可以尽量简单,工作的重点是设计子智能体架构的基础环境:测试、运行、反馈等机制,如此才能让多 AI 智能体无人工干预自行运转。

ChatGPT 奇迹的三年内,第一年大家在思考如何给 AI 聊天机器人写出更好的提示词、在聊天窗口调用大模型的性能。

第二年大家发现完成调用不用人类来做提示词仙人,让 AI 自己学会调用不同大模型和同一大模型的不同功能 API,这是 Manus 和 AI 智能体火热的一年。

第三年大家发现可以让 AI 自己学会自动调用并读懂用户终端里的本地文件、和云端的各种 AI 子智能体,这是 OpenClaw 和 Harness 架构火热的一年。

时代趋势是 AI 的调用层级越来越高,完成的任务越来越复杂。但技术皆有脉络可循,基础原理并不是大众不能理解的黑魔法。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 编程 斯坦福大学 指导
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论