大模型竞技场LMArena官宣拿下1.5 亿美元A 轮融资。
估值升至 17 亿美元,妥妥的新年开门红!

这波融资由 Felicis 和加州大学投资公司 UC Investments 领投,Andreessen Horowitz、The House Fund 等机构跟投。
资本用真金白银投票,足以见得 AI 时代大模型评估这个赛道有多香~
而这支 90 后华人含量 99% 团队的走红之路,还得从 2023 年 ChatGPT 横空出世后说起。
从学术探索到商业崛起
LMArena 的前身是曾经火爆 AI 圈的Chatbot Arena,最早由LMSYS这个自发的开源组织创建。
组织的核心成员全是来自 UC 伯克利、斯坦福、UCSD、CMU 等顶尖高校的学霸。
他们的开源推理引擎SGLang在业内首次实现了在 96 块 H100 上跑出几乎媲美 DeepSeek 官方报告吞吐量的开源方案。
目前 SGLang 已经实现大规模部署,被 xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。
不过,比起硬核技术,他们最主要也更出圈的工作是对大模型进行评估。
在 ChatGPT、Claude 一众模型刚刚面世之际,他们率先创办了 Chatbot Arena 这么一个第三方众包基准测评平台。
LMSYS 的创办人之一、SGLang 主导者郑怜悯曾对我们透露,当时之所以创建 Chatbot Arena,是因为他们自己训练了小羊驼 Vicuna 的开源模型。

当时他们觉得自己模型还不错,但市面上已有的各种基准测试很难真正区分出模型是 " 真好 " 还是 " 假好 "。
团队认为,评估模型最好的方式就是将其放到网上,让用户试用并投票。于是乎他们就搞了个众包测试平台 Chatbot Arena,通过实际的用户交互来评估模型性能。
结果没想到的是后来 Chatbot Arena 已独立成一家公司,而小羊驼 Vicuna 等大模型的研发已经停滞。

早期的 Chatbot Arena 搞的是双盲测试,让用户在不知道模型身份的情况下盲选最优回答,这种模式吸引了大量 AI 爱好者来打卡。
后来,全球各地一有新模型更新都会在里面偷偷测一把,Chatbot Arena 逐渐成为模型测评首选的排行榜。
这样的影响力让 Chatbot Arena 在 AI 领域崭露头角,获得资本市场的认可。
它独立出来成为一家商业公司lmarena.ai,专注于 AI 模型评估。
2025 年 5 月,被曝获种子轮 1 亿美元投资,估值达到 6 亿美元。
动态竞技场
lmarena.ai 的主要项目就是如今全球大模型的动态竞技场 LMArena。

核心评估规则围绕匿名对战、Elo 式评分和人机协同框架展开,方式也比较有意思。
用户只要输入问题,系统就会随机匹配两个模型来做匿名回答。
这时候大家不用管模型是谁,只需要根据回答的好坏投票选出更优的那个,系统在投完票之后才会揭晓模型的真实身份。
在评分上,平台基于 Bradley – Terry 模型设计了 Elo 评分机制,每个模型都有初始分数,赢了就加分,输了就扣分,随着对战次数越来越多,分数会慢慢稳定下来,最终形成实时更新的排行榜。
除此之外,平台还采用了人机协同的评估模式,用人类的真实投票来反映大家对模型的偏好,再通过算法去平衡各个模型的出场次数、任务类型和样本分布,避免有的模型因为曝光多就被高估,或者因为曝光少就被低估,确保整个评估过程公平客观。
就这样,LMArena 成了各家新模型 " 出道 " 时的必测榜单。当前 Gemini 3 Pro 以 1490 分位居榜首。

去年拿到 1 亿美元种子轮融资后,LMArena 的发展迅速超出预期。
在短时间内不仅累计了涵盖文本、视觉、网络开发等跨模态的 5000 万张投票,完成了 400 余种开放及专有模型的评估,还产出了覆盖文本、多模态、专家及职业等多个类别的 14.5 万个开源战斗数据点。
现在,LMArena 计划将新筹集的资金用于平台运营,确保平台稳定且高效运行,提升用户体验。同时扩大技术团队,为平台发展注入更多专业技术力量。
参考链接:https://news.lmarena.ai/series-a/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
量子位智库 2025 年度「AI 100」榜单正式开启招募!
和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦