财报资讯网 05-23
“最难刷分”烧脑评测榜单出炉,零一万物Yi-Large位居全球第二
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

人工智能在日常生活、工作方面的渗透与日俱增。作为 AI 领域的中流砥柱 , 大模型技术正推动着这场智能革命。近期 , 国内外有关大模型的重磅消息更是层出不穷。

就在上周 ,GPT-4o 的测试版本披着 "im-also-a-good-gpt2-chatbot" 的外衣神秘登场 , 在大模型竞技场 Chatbot Arena 上 " 大杀四方 ", 吸引全球眼光。

时隔一周 , 最新更新的排名中再次上演了一匹黑马逆袭的故事。这次 , 排名迅速攀升的模型是源自中国大模型公司零一万物所提交的 "Yi-Large" 千亿参数闭源大模型。

在分类别的排行榜上 ,Yi-Large 的表现引人注目。它在编程能力、长篇幅提问以及最新推出的 " 高难度提示词 " 三个方面的评估中表现突出。这些评估由 LMSYS 提供 , 以专业性和高难度闻名 , 被认为是对大型语言模型最具 " 烧脑 " 的公开盲测。

在编程能力 ( Coding ) 排行榜上 ,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus, 仅低于 GPT-4o, 与 GPT-4-Turbo、GPT-4 并列第二。

长提问 ( Longer Query ) 榜单上 ,Yi-Large 同样位列全球第二 , 与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

艰难提示词 ( Hard Prompts ) 则是 LMSYS 为了响应社区要求 , 于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示 , 这些提示则经过专门设计 , 更加复杂、要求更高且更加严格。LMSYS 认为 , 这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上 ,Yi-Large 处理艰难提示的能力也得到印证 , 与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

而在 LMSYS 盲测竞技场的最新排名中 , 零一万物的 Yi-Large 模型以出色的表现 , 荣登世界模型总榜第 7 位 , 并在中国大模型中位列榜首 , 其表现已超越 Llama-3-70B、Claude 3 Sonnet 等竞争对手。值得注意的是 , 在中文分榜中 ,Yi-Large 更是与 GPT4o 并列世界第一 , 显示出其在中文处理领域的强大实力。

零一万物因此成为总榜上唯一一家自家模型进入排名前十的中国大模型企业 , 彰显了中国在人工智能领域的快速发展与实力。在总榜上 ,GPT 系列占据了前 10 名的四个席位 , 而零一万物 01.AI 则以开放金标准正式进军国际顶级大模型企业阵营 , 紧随 OpenAI、Google、Anthropic 等知名企业之后。

对于 LMSYS 盲测有些朋友可能不甚了解 , 简而言之 LMSYS 盲测由 LMSYS Org ( Large Model Systems Organization ) 推出的一个基准测试平台 , 它专注于对大型语言模型 ( LLM ) 进行评估。这个平台通过一种名为 Chatbot Arena 的众包方式 , 匿名随机地对抗测评大型语言模型产品。LMSYS Org 是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

在 LMSYS 的盲测中 , 系统会随机选择两个不同的大型语言模型与用户进行聊天 , 并让用户在匿名的情况下选择哪个模型的表现更好。这种评分方式是基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。通过用户投票产生的评分结果 , 可以相对公正地评估大型语言模型的性能。

据美国时间 2024 年 5 月 20 日最新刷新的 LMSYS Chatboat Arena 盲测结果显示 , 本次盲测吸引了超过 1170 万的全球用户参与真实投票 , 充分证明了该竞技场在人工智能领域的广泛影响力和权威性。

LMSYS Org 为了提升 Chatbot Arena 测试平台的评估质量 , 采取了一项新措施 , 即删除重复数据的机制。该机制的目的是为了减少用户在测试中可能产生的冗余输入 , 例如频繁出现的 " 你好 " 等重复性问候语。这些冗余的输入有可能对模型排名的准确性造成干扰。LMSYS Org 已经明确表示 , 经过去除这些冗余查询后生成的榜单 , 将在不久的将来成为官方默认的排名榜单。

而在去除冗余查询后的总榜中 , Yi-Large 的 Elo 得分更进一步 , 与 Claude 3 Opus、GPT-4-0125-preview 并列第四。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

零一万物 人工智能 编程 chatbot ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论