雷锋网 06-20
阿里通义Qwen2成斯坦福大模型榜单最强开源模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

6 月 20 日消息,斯坦福大学的大模型测评榜单 HELM MMLU 发布最新结果,斯坦福大学基础模型研究中心主任 Percy Liang 发文表示,阿里通义千问 Qwen2-72B 模型成为排名最高的开源大模型,性能超越 Llama3-70B 模型。

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等 57 项任务,用以测试大模型的世界知识和问题解决能力。但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。 

斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架 HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于 HELM 框架,对不同模型在 MMLU 上的评估结果进行标准化和透明化处理,从而克服现有 MMLU 评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的 5 个示例进行情境学习,等等。

日前,斯坦福大学基础模型研究中心主任 Percy Liang 在社交平台发布了 HELM MMLU 最新榜单,阿里巴巴的通义千问开源模型 Qwen2-72B 排名第 5,仅次于 Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是排名第一的开源大模型,也是排名最高的中国大模型。

据悉,通义千问 Qwen2 于 6 月初开源,包含 5 个尺寸的预训练和指令微调模型,目前 Qwen 系列模型下载量已经突破 1600 万。

雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

阿里 开源 斯坦福大学 通义千问 社交平台
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论