量子位 昨天
给AI打个分,结果搞出17亿估值独角兽???
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型竞技场LMArena官宣拿下1.5 亿美元A 轮融资。

估值升至 17 亿美元,妥妥的新年开门红!

这波融资由 Felicis 和加州大学投资公司 UC Investments 领投,Andreessen Horowitz、The House Fund 等机构跟投。

资本用真金白银投票,足以见得 AI 时代大模型评估这个赛道有多香~

而这支 90 后华人含量 99% 团队的走红之路,还得从 2023 年 ChatGPT 横空出世后说起。

从学术探索到商业崛起

LMArena 的前身是曾经火爆 AI 圈的Chatbot Arena,最早由LMSYS这个自发的开源组织创建。

组织的核心成员全是来自 UC 伯克利、斯坦福、UCSD、CMU 等顶尖高校的学霸。

他们的开源推理引擎SGLang在业内首次实现了在 96 块 H100 上跑出几乎媲美 DeepSeek 官方报告吞吐量的开源方案。

目前 SGLang 已经实现大规模部署,被 xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。

不过,比起硬核技术,他们最主要也更出圈的工作是对大模型进行评估

在 ChatGPT、Claude 一众模型刚刚面世之际,他们率先创办了 Chatbot Arena 这么一个第三方众包基准测评平台。

LMSYS 的创办人之一、SGLang 主导者郑怜悯曾对我们透露,当时之所以创建 Chatbot Arena,是因为他们自己训练了小羊驼 Vicuna 的开源模型。

当时他们觉得自己模型还不错,但市面上已有的各种基准测试很难真正区分出模型是 " 真好 " 还是 " 假好 "。

团队认为,评估模型最好的方式就是将其放到网上,让用户试用并投票。于是乎他们就搞了个众包测试平台 Chatbot Arena,通过实际的用户交互来评估模型性能。

结果没想到的是后来 Chatbot Arena 已独立成一家公司,而小羊驼 Vicuna 等大模型的研发已经停滞。

早期的 Chatbot Arena 搞的是双盲测试,让用户在不知道模型身份的情况下盲选最优回答,这种模式吸引了大量 AI 爱好者来打卡。

后来,全球各地一有新模型更新都会在里面偷偷测一把,Chatbot Arena 逐渐成为模型测评首选的排行榜。

这样的影响力让 Chatbot Arena 在 AI 领域崭露头角,获得资本市场的认可。

它独立出来成为一家商业公司lmarena.ai,专注于 AI 模型评估。

2025 年 5 月,被曝获种子轮 1 亿美元投资,估值达到 6 亿美元。

动态竞技场

lmarena.ai 的主要项目就是如今全球大模型的动态竞技场 LMArena。

核心评估规则围绕匿名对战、Elo 式评分和人机协同框架展开,方式也比较有意思。

用户只要输入问题,系统就会随机匹配两个模型来做匿名回答。

这时候大家不用管模型是谁,只需要根据回答的好坏投票选出更优的那个,系统在投完票之后才会揭晓模型的真实身份。

在评分上,平台基于 Bradley – Terry 模型设计了 Elo 评分机制,每个模型都有初始分数,赢了就加分,输了就扣分,随着对战次数越来越多,分数会慢慢稳定下来,最终形成实时更新的排行榜。

除此之外,平台还采用了人机协同的评估模式,用人类的真实投票来反映大家对模型的偏好,再通过算法去平衡各个模型的出场次数、任务类型和样本分布,避免有的模型因为曝光多就被高估,或者因为曝光少就被低估,确保整个评估过程公平客观。

就这样,LMArena 成了各家新模型 " 出道 " 时的必测榜单。当前 Gemini 3 Pro 以 1490 分位居榜首。

去年拿到 1 亿美元种子轮融资后,LMArena 的发展迅速超出预期。

在短时间内不仅累计了涵盖文本、视觉、网络开发等跨模态的 5000 万张投票,完成了 400 余种开放及专有模型的评估,还产出了覆盖文本、多模态、专家及职业等多个类别的 14.5 万个开源战斗数据点。

现在,LMArena 计划将新筹集的资金用于平台运营,确保平台稳定且高效运行,提升用户体验。同时扩大技术团队,为平台发展注入更多专业技术力量。

参考链接:https://news.lmarena.ai/series-a/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 融资 chatbot 阿里云 英伟达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论