智东西 19小时前
Hermes新功能上线!比Opus 4.8和GPT-5.5还猛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 应用风向标(公众号:ZhidxcomAI)

作者|毕伟豪

编辑|漠影

智东西 6 月 30 日报道,现在,Fable 5 和 Mythos 5 等顶尖闭源模型没法使用,就算能用,单一模型也总有搞不定的问题,那么,想要高质量输出结果的用户该怎么办呢

近日,Hermes Agent 上线了 MoA(Mixture of Agents)功能,支持用户自由组合多种模型作为虚拟模型使用,在 Nous Research 即将发布的基准测试中,这个混合模型的评分超过了 Opus 4.8 和 GPT-5.5

一、Fable 5、Mythos 5 被禁,多模型组合成为潮流

Nous Research 在官推上说了这样一句话:" 最强大的模型是受限的,只有少数人才能获得访问权限。" 这句话明晃晃地指向了 Fable 5 等模型被封禁的事件。

在这种背景下,不难看出,MoA 这个混合模型模式的终极目的,是用开源模型的组合达到顶尖闭源模型的水准,就像 Hermes Agent 联合创始人 Teknium 说的,他们正在测试各种开源模型组合,看看是否能用更便宜的模型达到 Opus 的水平。

这种多模型组合比肩顶尖模型的思路,最近其实有不少实践的例子,比如前段时间日本 AI 独角兽 Sakana AI 发布的 Sakana Fugu 系列编排器模型,会根据任务选择最佳的模型来处理,和 MoA 的思路非常相似。

而 MoA 的技术也在很久之前就已存在了,2024 年 6 月 Together AI 曾发表过一篇论文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心是多 LLM 组合,每一层模型都会参考上一层模型的输出,再继续生成自己的回答。同时,论文也将模型分成了两类,也就是现在 Hermes 所用的参考模型和聚合模型。

当用户提出问题时,参考模型会先对问题进行分析判断,然后给出参考意见,随后由聚合模型来综合判断,并调用工具执行具体任务。

参考模型只生成意见、不会使用任何工具,也不能执行任何命令。这种模式可以发挥不同模型的独特优势,集各家之所长,让擅长规划的模型来提意见,让长于实践的模型来完成任务。

使用这个模式也很简单,以桌面版为例,只需要在设置里点开模型选项,向下翻就可以看到 Mixture of Agents 的选项了,直接选择你想用的模型进行组合即可,默认状态下是两个参考模型和一个聚合模型,也可以自己手动添加多个参考模型。

二、实测做游戏更丝滑,Token 消耗量相差不大

海外有博主专门做了实测,用两种组合方式分别生成了游戏和交互页面,实测结果发现,使用 MoA 任务完成的时间并不一定会变长,会因为模型选择的不同而发生变化,同时,Token 的消耗量也没有想象中恐怖

博主先是测试了一个小游戏的制作,使用 Three.js 开发一个原力海盗训练竞技场游戏,为了对比效果,他先使用单一模型 glm-5.2来做测试,输入提示词:

Hermes 花费了 0.38 美元,用时 13 分钟搞定了这个游戏,可以看到,单一 glm-5.2 模型生成的游戏效果整体上还不错,但是在移动速度和流畅程度上存在一些问题,比如飞船很难躲避敌人的攻击,可玩性稍弱。

随后博主启用了 MoA,用kimi-k2.6 和 minimax-m3 做参考模型,glm-5.2 做聚合模型,然后新开对话,输入同样的提示词。

这一次,Hermes 花费了 0.47 美元,用时 35 分钟完成任务,价格比单一模型稍高一些,时间上翻了接近三倍。虽然在时间和成本上更高,但 MoA 模式下的生成效果也明显更好,可以看到其移动速度、流畅程度以及关卡合理性都比单一模型的输出结果好很多。

随后,博主又使用顶尖闭源模型 GPT-5.5 进行了测试,这一次是让 Hermes 生成一个可交互的动漫多元宇宙仪表盘,包括火影忍者、海贼王、龙珠等 IP。对照组依旧是单一模型,使用 GPT-5.5 执行任务,由于是订阅制,因此博主直言没办法核算成本。

Hermes 用了接近 7 分钟完成任务,设计的仪表盘中间的光球周围的光圈有一些简单,缺少质感,但交互上非常流畅。

随后博主用了三个 grok 模型做参考模型,GPT-5.5 为聚合模型进行同样的测试,令他意想不到的是,MoA 模式下的 Hermes 生成速度竟然更快,博主推测可能是由于使用了 grok 快速模型的原因。

能看到这次的生成结果明显更有质感,尤其是中间的光球设计感很强,整体交互也非常丝滑,而且点击不同的星球还有远近景的切换。

结语:未来比拼的,不只是模型

过去,大模型竞争几乎都是围绕着" 谁家的模型更强 "展开的,用户需要不断切换不同模型,在编程、写作、推理之间寻找最适合的那个。

但 MoA、Sakana Fugu 等已然在另一个思路上前进:与其等待一个 " 万能模型 ",不如让多个擅长不同能力的模型共同完成一项任务

这种走向 " 编排 " 的趋势,其实刚好符合 Agent 的要求,模型是底层能力,Agent 负责组织不同模型协作,让规划能力强的模型负责思考,让执行能力强的模型负责落地

当然,目前 MoA 需要承担更高的推理成本,在部分任务上耗时也会明显增加,并不是所有场景都值得开启。但随着推理成本持续下降、开源模型能力不断提升,多模型协作很可能会成为 Agent 未来的默认工作方式

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai hermes 开源 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论