Techweb 04-13
实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【TechWeb】4 月 13 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,从此前的第 2 名,直线掉到了第 32 名!

这也实锤了此前开发者对 Meta 为刷榜排名向 LMArena 提供了 " 特供版 " 的 Llama 4 大模型的质疑。(详情:Llama 4 大模型跌落神坛:作弊刷榜、代码能力极差、和 DeepSeek 比就是伪开源

4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中的排名第二,仅次于 Gemini 2.5 Pro。

然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝出,Llama 4 口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而 Meta 被质疑为刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是 " 特供版 ",并考虑更新排行榜。

根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

目前,开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

LMArena 详细排名如下:

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 作弊 英伟达 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论