量子位 昨天
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

这年头,AI 圈最不缺的就是 " 得不到的白月光 "。

就在大家一边对着Claude Fable 5望洋兴叹,一边盘算着高昂的调用成本时,有人已经悄悄把这桌 " 满汉全席 " 给掀了。

怎么掀的?一手精妙的 " 拼图游戏 "。

AI 网关OrcaRouter最近上线了一套可编程路由策略Routing DSL,多个模型同时答题,自动仲裁出最优解。

几个你现在就能调用的 " 常规模型 ",给它来个组合编排,跑出来的综合胜率,直接掀翻了 Fable 5 的单体基准线。

Opus 4.8 打不过 Fable 5,GPT-5.5 也单挑不过,但这两个拼一组,结果就反超了。

哪怕是不混编,同一个 Opus 4.8 自己跟自己组队,综合得分也能从 58.5% 拉到约65.5%,追平 Fable 5。

换成几个更便宜的模型组队(Gemini+Kimi+DeepSeek),也只差 Fable 5 一个点,成本却低上一大截

我们直接看数据。

反直觉的结果:组合 > 任何单兵

一组测试(注:以下为示意性数据,用于说明趋势,非官方跑分),100 道任务里评分了93 道

组合面板(多模型并行 + 仲裁)的得分,普遍高于它的每一个成员模型:

这里划下重点:

任意一个 " 组合面板 ",都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5(约 67.5%)同时高于 Opus 单跑(约 58.5%)和 GPT-5.5 单跑(约 60%),拉开 7~9 个点;

多个组合追平、甚至超过了 Fable 5 单跑(约 65.5%);

连 " 自我组合 "(Opus × 2,约 65.5%)都能追平 Fable 5;一组便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,约 64.5%)也几乎贴脸——成本却低一大截

再把 DSL 按难度智能分流跑成完整端点,差距更为直观(同为示意数据):

很明显,赢的不是 " 更强的模型 ",而是" 更聪明的编排方式 "

为什么 " 人多力量大 " 对模型也适用

道理和让三个工程师同时做题、再挑出最好的答案一样。

不同模型的知识盲区和犯错方式并不相同:

各自独立作答,错误是分散、不重叠的;

再用 " 裁判 " 或 " 投票 " 把对的挑出来,整体正确率自然会被抬上去。

模型间的分歧其实是信号

OrcaRouter 做的,就是从这些分歧里挑出最优解,拼成满血输出。

怎么做到的:用最简单的配置,解最复杂的调度

OrcaRouter 把这套编排逻辑交给你自己写。

规则用 YAML,条件用 Google 的 CEL 表达式(安全沙箱、只读、微秒级求值),自上而下匹配,第一条命中即生效。

整条请求的处理路径是这样的:

按难度路由,长这样:

rules:id: hardwhen: difficulty >   0.8   # 难题 → 上顶配 use: { model:   "anthropic/claude-opus-4-8", reasoning_effort:   "high"   }id: easywhen: difficulty <   0.3   # 简单请求 → 走便宜模型 use: { model:   "google/gemini-3-flash"   }default:delegate: balanced

" 满血复活 "的关键一招,是 parallel(并行扇出)+ arbiter(仲裁):

use:parallel: #   2~5   个模型并行作答 - { model:   "anthropic/claude-opus-4-8"   }- { model:   "openai/gpt-5.5"   }- { model:   "google/gemini-3.1-pro"   }arbiter:strategy: best_of_n # 让一个 " 裁判模型 " 挑最优 model:   "anthropic/claude-sonnet-4-6"

四种仲裁策略,对应四种" 怎么定胜负 "

担心组合也翻车?

再加一层置信度级联兜底:当响应触发 patch_invalid(补丁打不上)、self_doubt(模型自我怀疑)等信号,自动改投更强的模型重试。

更省、更稳:用拓扑换智能

并行扇出意味着 " 每条腿都计费 ",但账要这么算:

你只在难的那一小撮请求上才扇出,简单请求照样走便宜模型;

而一组便宜模型拼出的面板就能逼近 Fable 5 ——用拓扑结构买智能,而不是用更高的单价买智能。

上手极简

入口在控制台:routing → create router → routing strategy → DSL。

配套自带 lint 校验、dry-run 试跑、影子模式(只评估不生效,先看 A/B 差异和成本变化)、灰度放量(0~100% 滑杆)和回滚审计——

改路由这种高危操作,被包了一层安全网,可以先零风险跑起来再放量。

需要说明的一点是:

按难度 / 任务的智能路由现已上线;

" 多模型并行扇出 + 仲裁 " 的运行时目前处于灰度 / 预览阶段(计费链路逐步验证中),可先写好规则、用影子模式观察,开放后一键生效。

现在就去试(文末点击 " 阅读原文 " 可直达):

文档:docs.orcarouter.ai/routing/routing-dsl

网站:www.orcarouter.ai (控制台 routing → create router → routing strategy → DSL)

结语

当整个圈子都在为了下一个未知数倾注赌注时,一种更具确定性的工程范式正在悄然成型。

协作大于单兵,网络优于孤岛。

几个现成模型组合起来就能赢最强单体,胜负手已经不只是 " 你调用了谁 "," 你怎么编排 "的权重正在变大。

模型还会继续卷下去,下一个更强的迟早会来。

但当编排本身就能拉出几个点的性能增量," 怎么用 "这件事,也许该和" 用哪个 "放在同一个优先级了。

(注:本文图表均为示意性数据,仅用于说明趋势,非官方跑分;多模型融合运行时目前处于灰度 / 预览阶段。)

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论