Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

AI 应用风向标（公众号：ZhidxcomAI）

作者｜毕伟豪

编辑｜漠影

智东西 6 月 30 日报道，现在，Fable 5 和 Mythos 5 等顶尖闭源模型没法使用，就算能用，单一模型也总有搞不定的问题，那么，想要高质量输出结果的用户该怎么办呢？

近日，Hermes Agent 上线了 MoA（Mixture of Agents）功能，支持用户自由组合多种模型作为虚拟模型使用，在 Nous Research 即将发布的基准测试中，这个混合模型的评分超过了 Opus 4.8 和 GPT-5.5。

一、Fable 5、Mythos 5 被禁，多模型组合成为潮流

Nous Research 在官推上说了这样一句话：" 最强大的模型是受限的，只有少数人才能获得访问权限。" 这句话明晃晃地指向了 Fable 5 等模型被封禁的事件。

在这种背景下，不难看出，MoA 这个混合模型模式的终极目的，是用开源模型的组合达到顶尖闭源模型的水准，就像 Hermes Agent 联合创始人 Teknium 说的，他们正在测试各种开源模型组合，看看是否能用更便宜的模型达到 Opus 的水平。

这种多模型组合比肩顶尖模型的思路，最近其实有不少实践的例子，比如前段时间日本 AI 独角兽 Sakana AI 发布的 Sakana Fugu 系列编排器模型，会根据任务选择最佳的模型来处理，和 MoA 的思路非常相似。

而 MoA 的技术也在很久之前就已存在了，2024 年 6 月 Together AI 曾发表过一篇论文《Mixture-of-Agents Enhances Large Language Model Capabilities》，核心是多 LLM 组合，每一层模型都会参考上一层模型的输出，再继续生成自己的回答。同时，论文也将模型分成了两类，也就是现在 Hermes 所用的参考模型和聚合模型。

当用户提出问题时，参考模型会先对问题进行分析判断，然后给出参考意见，随后由聚合模型来综合判断，并调用工具执行具体任务。

参考模型只生成意见、不会使用任何工具，也不能执行任何命令。这种模式可以发挥不同模型的独特优势，集各家之所长，让擅长规划的模型来提意见，让长于实践的模型来完成任务。

使用这个模式也很简单，以桌面版为例，只需要在设置里点开模型选项，向下翻就可以看到 Mixture of Agents 的选项了，直接选择你想用的模型进行组合即可，默认状态下是两个参考模型和一个聚合模型，也可以自己手动添加多个参考模型。

二、实测做游戏更丝滑，Token 消耗量相差不大

海外有博主专门做了实测，用两种组合方式分别生成了游戏和交互页面，实测结果发现，使用 MoA 任务完成的时间并不一定会变长，会因为模型选择的不同而发生变化，同时，Token 的消耗量也没有想象中恐怖。

博主先是测试了一个小游戏的制作，使用 Three.js 开发一个原力海盗训练竞技场游戏，为了对比效果，他先使用单一模型 glm-5.2来做测试，输入提示词：

Hermes 花费了 0.38 美元，用时 13 分钟搞定了这个游戏，可以看到，单一 glm-5.2 模型生成的游戏效果整体上还不错，但是在移动速度和流畅程度上存在一些问题，比如飞船很难躲避敌人的攻击，可玩性稍弱。

随后博主启用了 MoA，用kimi-k2.6 和 minimax-m3 做参考模型，glm-5.2 做聚合模型，然后新开对话，输入同样的提示词。

这一次，Hermes 花费了 0.47 美元，用时 35 分钟完成任务，价格比单一模型稍高一些，时间上翻了接近三倍。虽然在时间和成本上更高，但 MoA 模式下的生成效果也明显更好，可以看到其移动速度、流畅程度以及关卡合理性都比单一模型的输出结果好很多。

随后，博主又使用顶尖闭源模型 GPT-5.5 进行了测试，这一次是让 Hermes 生成一个可交互的动漫多元宇宙仪表盘，包括火影忍者、海贼王、龙珠等 IP。对照组依旧是单一模型，使用 GPT-5.5 执行任务，由于是订阅制，因此博主直言没办法核算成本。

Hermes 用了接近 7 分钟完成任务，设计的仪表盘中间的光球周围的光圈有一些简单，缺少质感，但交互上非常流畅。

随后博主用了三个 grok 模型做参考模型，GPT-5.5 为聚合模型进行同样的测试，令他意想不到的是，MoA 模式下的 Hermes 生成速度竟然更快，博主推测可能是由于使用了 grok 快速模型的原因。

能看到这次的生成结果明显更有质感，尤其是中间的光球设计感很强，整体交互也非常丝滑，而且点击不同的星球还有远近景的切换。

结语：未来比拼的，不只是模型

过去，大模型竞争几乎都是围绕着" 谁家的模型更强 "展开的，用户需要不断切换不同模型，在编程、写作、推理之间寻找最适合的那个。

但 MoA、Sakana Fugu 等已然在另一个思路上前进：与其等待一个 " 万能模型 "，不如让多个擅长不同能力的模型共同完成一项任务。

这种走向 " 编排 " 的趋势，其实刚好符合 Agent 的要求，模型是底层能力，Agent 负责组织不同模型协作，让规划能力强的模型负责思考，让执行能力强的模型负责落地。

当然，目前 MoA 需要承担更高的推理成本，在部分任务上耗时也会明显增加，并不是所有场景都值得开启。但随着推理成本持续下降、开源模型能力不断提升，多模型协作很可能会成为 Agent 未来的默认工作方式。

宙世代

一起剪

相关标签