量子位 02-27
Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

向 Claude Code 提开发需求,却刻意不在 prompt 中提及任何具体工具,它会更倾向于选择用什么工具?又会展现出哪些偏好特征?

最近,专注于量化 AI 主观决策的基准测试工作室Amplifying.ai,针对 Claude Code 的工具选择倾向开展了一项系统性研究。

研究覆盖 3 款模型、4 种项目类型及 20 个工具类别,累计分析了 2430 次工具选择行为

实验全程采用开放式提示词,例如 " 我应该用什么?",完全不包含工具名称,同时记录 Claude Code 在实际操作中的工具选择结果。

通过测试,团队得出了以下几项核心结论:

1、倾向 " 自建 " 而非选用第三方工具:

Claude Code 更倾向于自己编写自定义解决方案,而不是直接推荐现成的第三方工具。自定义 /DIY 实现占所有主要选择的 12%(2073 次中的 252 次),成了最常见的选择。

2、默认技术栈已然形成:

Claude Code 选择第三方工具时,会集中选:Vercel、PostgreSQL、Stripe、Tailwind CSS、shadcn/ui、pnpm、GitHub Actions、Sentry、Resend、Zustand。除此之外,还会根据不同技术栈选择专属工具,比 JS 项目用 Drizzle 做 ORM、Python 项目用 SQLModel 做 ORM;Next.js 项目用 NextAuth.js 做认证;JS 项目用 Vitest 做测试、Python 项目用 pytest 做测试。

3、部分工具类别已 " 锁定 " 单一工具:

GitHub Actions 占据 CI/CD 类别 94% 的选择,shadcn/ui 占据 UI 组件类别 90% 的选择,Stripe 占据了支付类别 91% 的选择。

4、同一技术生态下,不同模型选择高度一致:

在同一生态(比如都是 JS 或都是 Python)内比较时,三个模型在 20 个类别中的 18 个,都选择了相同的首选工具。只有缓存和实时通信两个类别,不同模型之间有真正的分歧;另外有 3 个看似有分歧的类别,其实是因为混合了 JS 和 Python 结果,并非真的分歧。

5、项目上下文比指令措辞更重要:

同一工具类别在不同代码仓库(repo)中,Claude Code 的选择会随项目类型变化。比如 Next.js 项目会选 Vercel,Python 项目会选 Railway。但如果是同一个项目,哪怕用 5 种不同的方式表述指令,它的选择稳定性平均能达到 76%。

以下是更多细节。

实验设置

为探究 Claude Code 的工具选择逻辑,研究团队搭建 4 个全新代码仓库(repo)开展测试,针对 20 个工具类别设计了 100 条开放式指令。

测试覆盖 Claude Sonnet 4.5、Opus 4.5、Opus 4.6 三款模型,每款模型独立运行三次;且在每条指令执行前,均执行 git checkout . && git clean -fd 命令,以确保代码环境处于纯净状态。

所有 prompt 均未指定具体工具,例如:

当 Claude Code 给出响应后,会有一个专门的子智能体来处理这个结果,它不负责执行任务,只负责读完全部内容,然后挑出里面最核心的那个工具推荐。

研究团队还详细说明实验采用的评估方法与各项指标。

需要注意的是,并非 20 个工具类别都在 4 个仓库中完成测试,部分类别因与仓库项目类型不匹配未被纳入,具体覆盖情况与提示词数量统计如下:

团队特别强调,本研究聚焦于 AI 代码助手的显性偏好分析,既不代表开发者的真实偏好,也不构成对工具质量的评估。

研究结果喜欢自己从零搭建功能

测试中,Claude Code 频繁选择从零搭建功能,而非直接推荐第三方工具。

例如,当需求为 " 添加功能标记 " 时,它不会建议使用 LaunchDarkly 这类现成工具,而是基于环境变量与框架基础功能,完整实现一套功能标记系统。

" 自定义 /DIY" 方案在 12 个不同工具类别中,累计被选为首选 252 次,超过 GitHub Actions(152 次)、Vitest(101 次)等热门工具。

不过需要说明的是,该数据是跨 12 个类别的汇总结果,而其他工具仅在特定类别中被推荐,二者并非同一类别内的直接对比。在多工具可选的具体类别中," 自定义 /DIY" 在功能标记与身份认证领域的推荐率最高。

针对 " 是否存在子智能体将复杂回答误判为自定义方案 " 的疑问,研究团队人工抽查了 50 个标记为 " 自定义 /DIY" 的案例,结果显示约 80% 为真实的从零搭建场景。剩余 20% 存在边界模糊的情况,这意味着真实的 " 自定义 /DIY" 比例可能略低于报告数据,但核心结论不变—— Claude Code 明显更偏爱自主构建方案。

哪个工具被首选的概率最高?

在全部 2073 条可提取工具推荐的响应中(不含 " 自定义 /DIY" 方案),被选为首选工具次数最多的前 20 名如下:

具体来看,实验中有 4 个工具类别呈现出单一工具主导率超 75% 的特征。

CI/CD:GitHub Actions 以 93.8% 的首选率占据绝对优势;

支付处理(Payments):Stripe 首选率高达 91.4%;

UI 组件库(UI Components):shadcn/ui 以 90.1% 的占比成为默认选择;

部署(Deployment):JavaScript 生态下 Vercel 首选率达 100%,Python 生态则由 Railway 主导(82%)。

另有 8 个类别中,单一工具首选率处于 50% – 75% 区间:

剩余 8 个类别未出现绝对主导工具,所有工具首选率均低于 50%。

不同模型的选择有什么不同?

在分属不同编程语言生态的 20 个工具类别中,三款模型对其中 18 类的首选工具判定完全一致,一致率达 90%。

研究团队表示,三款模型基于相同的基础训练数据集,高一致率的结果符合预期。真正具备研究价值的是模型间 25% 的分歧部分,这种差异大概率并非源于模型对工具质量的独立判断,而是由基于人类反馈的强化学习(RLHF)调优策略不同,以及生成环节的专属微调差异导致。

从整体数据看,有 5 个类别的首选工具存在差异,其中 3 类是 JavaScript 与 Python 技术栈结果混杂导致的统计偏差,仅有缓存、实时通信两类属于不同技术生态间的真实分歧。

15 个类别中,三款模型首选工具一致:

存在真实生态内偏好差异或跨编程语言判断分歧的 5 个类别如下:

在同一技术生态下,仅缓存与实时功能 2 个类别,三款模型出现真实分歧:

而 API 层的工具选择由开发框架决定,非模型驱动,同一技术栈下三款模型的推荐结果一致:

值得注意的是,同一技术生态内,更新版本的模型更倾向于选择更新的工具。以下所有占比均为生态内统计:

研究还总结了三款模型(Sonnet 4.5、Opus 4.5、Opus 4.6)的工具推荐 " 风格 " 画像:

Sonnet 4.5:决策最果断,风格最保守,强烈偏好成熟、主流的工具;

Opus 4.5:介于保守与求新之间,会考虑更多备选方案,推荐分布更均匀;

Opus 4.6:最青睐最新、前沿的工具,同时最倾向于推荐自定义 /DIY 方案。

对比 4.5 代模型(Sonnet 4.5 与 Opus 4.5 平均值)与 Opus 4.6 在工具推荐上的系统性差异,核心结论是:

Opus 4.6 更倾向推荐新工具与自定义方案,而 4.5 代模型更偏好成熟稳定的工具。

更多结论:稳定性与场景依赖性显著

研究团队针对每个工具类别,用 5 种不同措辞提问模型。若 5 次提问推荐同一工具,稳定性即为 100%;若措辞变化导致推荐工具改变,则稳定性较低。

下图将所有类别按稳定性分为 4 档,其中 API Layer、CI/CD、Databases 等类别,即便更换指令措辞,模型仍会推荐同一工具。

在同一模型、同一提示词、同一代码仓库的条件下,三款模型 3 次独立运行的推荐结果一致性较高:

Package Manager、CI/CD、State Management、Testing、Payments,3 次推荐完全一致的比例高达 87% – 93%,且未出现 3 次推荐结果完全不同的情况。

团队还分析了模型在不同代码仓库中的工具推荐一致性,发现工具推荐可分为两类:一类是通用型工具,不受项目类型影响;另一类是技术栈专属工具,推荐结果高度依赖项目的技术栈与应用场景。

模型的工具推荐高度依赖具体项目上下文。

团队细分 4 个测试仓库的每个工具类别,对比三款模型的选择差异发现:同一模型在 Next.js 项目中会推荐 Drizzle 作为 ORM 工具,而在 Python 项目中则会选择 SQLModel(具体细节可查看完整研究报告)。

最后,研究团队给出三方面核心启示:

对工具厂商而言:Claude Code 正在重塑行业工具的默认选择。若工具未进入 AI 助手的推荐列表,其在开发者工作流中的存在感可能将逐渐弱化。

对开发者而言:一套由 Claude Code 主导的新兴技术栈正在形成,它代表着 AI 辅助开发模式下的共识选择。这些工具未必是 " 最优解 ",却是模型最一致的推荐选项。同时," 倾向自定义方案 " 的趋势也提醒开发者,需要评估是自己手搓的方案好,还是用成熟库更能扛住长期迭代。

对 AI 团队而言:不同版本模型的行为特征差异真实存在且可量化," 版本迭代梯度 " 现象,也验证了训练数据构成会影响工具推荐倾向。

官方研究报告:https://amplifying.ai/research/claude-code-picks/report

—  欢迎 AI 产品从业者共建  

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论