龙虾太火,所有人都想一试。但真到了上手环节就会迎来第一道 " 拦路虎 " ——
急急急,究竟哪个模型最适合 OpenClaw 啊??
知道你急,龙虾之父亲自赶来支招了:可以关注这个因吹斯汀的榜单。

榜单名为PinchBench,专为龙虾而生,从成功率、速度、价格等维度评估全球大模型对 OpenClaw 的适配程度。(划重点,还是实时更新那种)
这个榜单其实今年 2 月底就出现了,但现在却更火了——
这里面不止有龙虾之父推荐的功劳,更重要的原因是咱中国模型的表现确实出色。(老外一看,嗯??)

前排国产模型含量好高啊
熟悉龙虾的朋友都知道,这选模型可是一件大事。
毕竟龙虾这玩意儿一吃 token 耗钱,二又不能太慢影响用户体验。
换言之,人人都在价格和速度之间艰难走钢丝。
而 PinchBench 要做的,就是直接告诉你答案——它按照成功率、速度、价格这三个基本维度对全球模型进行排名,所以哪个模型更擅长什么基本都一目了然。
截至本文发稿前,榜单具体情况如下——
整体而言,中国模型在成功率和速度方面都有不俗表现,价格方面则稍逊。
比成功率,除了第一名谷歌 Gemini 3 Flash,第二、第三名都出自国内。
第一名(Gemini 3 Flash):成功率 95.1%
第二名(MiniMax M2.1):成功率 93.6%
第三名(Kimi K2.5):成功率 93.4%
而且注意没,MiniMax 用的还不是它家最新模型 MiniMax M2.5。
(注:MiniMax M2.5 于春节期间上线,官方主打 " 让无限运行复杂 Agent 在经济上可行 "。)

比速度,国产模型 MiniMax M2.5 更是一举超越 Gemini、Llama 等模型,登上榜首。

当时发布时,MiniMax M2.5 就在 SWE-Bench Verified 测试中,完成任务的速度较上一代 M2.1 提升了 37%,端到端运行时间缩短至 22.8 分钟,与 Claude Opus 4.6 持平。
而 Claude Opus 4.6 的最新排名是 30(M2.1 是第 22)。

不过在价格方面,国产模型和 OpenAI、谷歌模型相比则缺乏优势。
排第一的 GPT-5-nano(专为轻量级、高性价比场景设计),输入价格低至 0.05 美元 / 百万 tokens,输出价格低至 0.40 美元 / 百万 tokens。
而国产模型中最便宜的 MiniMax M2.1,输入价格为 2.1 元 / 百万 tokens(约 0.3 美元 / 百万 tokens),输出价格为 8.4 元 / 百万 tokens(约 1.2 美元 / 百万 tokens)。
平均下来,后者的价格几乎是前者的 3 倍。

综合来看,如果要在成功率和价格之间取得最佳平衡,下面这张图可以作为参考。
左上角的方框已经圈选出了还不错的模型——一共 8 个,其中有 4 个还都是中国模型。

Anyway,在这份专为龙虾而生的 Benchmark 中,国产模型的含量确实很高,而且在某些单项上表现出色。
那么问题来了,这榜单靠谱吗?背后的筛选机制又是什么?
来看 PinchBench 的介绍。
谁是 PinchBench?
简单来说,PinchBench 并不是某家大厂推出的标准 Benchmark,而是来自一支做 Agent 基础设施的创业团队。
团队名为Kilo AI,由 GitLab 前联合创始人兼 CEO Sid Sijbrandij 投资并参与创立,曾推出爆火 " 氛围编程 " 工具 Kilo Code。
年初龙虾爆火后,他们又顺势推出了基于 OpenClaw 构建的全托管智能体平台 KiloClaw。
而随着 KiloClaw 一起发布的,就有 PinchBench 这个智能体框架评测工具。

PinchBench 主要被用来测试不同大模型在真实工作流中的执行能力,和传统大模型 Benchmark(比如知识问答、数学推理)不同,其定位更接近"Agent 能力测试 "——
不只看模型会不会回答问题,而是看模型能不能完成一整件事。
目前它大约包含 23 个真实任务的测试,包括但不限于:
查询并整理资料
写邮件或生成报告
调用 API 完成操作
……

在评分机制上,PinchBench 采用的是自动化检查 +LLM 评审的组合方式:
一部分任务有明确的自动检查脚本,例如是否生成正确文件、是否完成指定操作等;另一部分任务则会由 LLM Judge 来判断结果质量。
最终统计的核心指标就是我们上面提到的 Success Rate(任务完成率)、Speed(完成速度)、Cost(推理成本)。
由于评测方式偏向真实任务流程,值得注意的是,在 PinchBench 的排行榜上,你会看到一个有意思的现象——
更大的模型并非总是制胜之道。
换言之,那些偏 Agent 优化或推理效率更高的模型,排名反而比传统主流大模型更靠前。
这一点也是 PinchBench 最近在圈子里被频繁讨论的原因之一。

BTW,PinchBench 目前还是完全开源的,用户也可以在平台上自行运行或添加新任务。
如果以后不知道怎么选模型,不妨自己动手一试。
PinchBench 开源地址:
https://github.com/pinchbench/skill
参考链接:
[ 1 ] https://x.com/steipete/status/2030312187915309311
[ 2 ] https://pinchbench.com/about?utm_source=chatgpt.com
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
今天,你养虾了吗?
欢迎加入【龙虾养成讨论组】,一起交流养虾经验!扫码添加小助手加入社群,记得备注【OPENCLAW】哦~
一键关注 点亮星标
科技前沿进展每日见


