给AI打个分，结果搞出17亿估值独角兽？？？

大模型竞技场LMArena官宣拿下1.5 亿美元A 轮融资。

估值升至 17 亿美元，妥妥的新年开门红！

这波融资由 Felicis 和加州大学投资公司 UC Investments 领投，Andreessen Horowitz、The House Fund 等机构跟投。

资本用真金白银投票，足以见得 AI 时代大模型评估这个赛道有多香～

而这支 90 后华人含量 99% 团队的走红之路，还得从 2023 年 ChatGPT 横空出世后说起。

从学术探索到商业崛起

LMArena 的前身是曾经火爆 AI 圈的Chatbot Arena，最早由LMSYS这个自发的开源组织创建。

组织的核心成员全是来自 UC 伯克利、斯坦福、UCSD、CMU 等顶尖高校的学霸。

他们的开源推理引擎SGLang在业内首次实现了在 96 块 H100 上跑出几乎媲美 DeepSeek 官方报告吞吐量的开源方案。

目前 SGLang 已经实现大规模部署，被 xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。

不过，比起硬核技术，他们最主要也更出圈的工作是对大模型进行评估。

在 ChatGPT、Claude 一众模型刚刚面世之际，他们率先创办了 Chatbot Arena 这么一个第三方众包基准测评平台。

LMSYS 的创办人之一、SGLang 主导者郑怜悯曾对我们透露，当时之所以创建 Chatbot Arena，是因为他们自己训练了小羊驼 Vicuna 的开源模型。

当时他们觉得自己模型还不错，但市面上已有的各种基准测试很难真正区分出模型是 " 真好 " 还是 " 假好 "。

团队认为，评估模型最好的方式就是将其放到网上，让用户试用并投票。于是乎他们就搞了个众包测试平台 Chatbot Arena，通过实际的用户交互来评估模型性能。

结果没想到的是后来 Chatbot Arena 已独立成一家公司，而小羊驼 Vicuna 等大模型的研发已经停滞。

早期的 Chatbot Arena 搞的是双盲测试，让用户在不知道模型身份的情况下盲选最优回答，这种模式吸引了大量 AI 爱好者来打卡。

后来，全球各地一有新模型更新都会在里面偷偷测一把，Chatbot Arena 逐渐成为模型测评首选的排行榜。

这样的影响力让 Chatbot Arena 在 AI 领域崭露头角，获得资本市场的认可。

它独立出来成为一家商业公司lmarena.ai，专注于 AI 模型评估。

2025 年 5 月，被曝获种子轮 1 亿美元投资，估值达到 6 亿美元。

动态竞技场

lmarena.ai 的主要项目就是如今全球大模型的动态竞技场 LMArena。

核心评估规则围绕匿名对战、Elo 式评分和人机协同框架展开，方式也比较有意思。

用户只要输入问题，系统就会随机匹配两个模型来做匿名回答。

这时候大家不用管模型是谁，只需要根据回答的好坏投票选出更优的那个，系统在投完票之后才会揭晓模型的真实身份。

在评分上，平台基于 Bradley – Terry 模型设计了 Elo 评分机制，每个模型都有初始分数，赢了就加分，输了就扣分，随着对战次数越来越多，分数会慢慢稳定下来，最终形成实时更新的排行榜。

除此之外，平台还采用了人机协同的评估模式，用人类的真实投票来反映大家对模型的偏好，再通过算法去平衡各个模型的出场次数、任务类型和样本分布，避免有的模型因为曝光多就被高估，或者因为曝光少就被低估，确保整个评估过程公平客观。

就这样，LMArena 成了各家新模型 " 出道 " 时的必测榜单。当前 Gemini 3 Pro 以 1490 分位居榜首。

去年拿到 1 亿美元种子轮融资后，LMArena 的发展迅速超出预期。

在短时间内不仅累计了涵盖文本、视觉、网络开发等跨模态的 5000 万张投票，完成了 400 余种开放及专有模型的评估，还产出了覆盖文本、多模态、专家及职业等多个类别的 14.5 万个开源战斗数据点。

现在，LMArena 计划将新筹集的资金用于平台运营，确保平台稳定且高效运行，提升用户体验。同时扩大技术团队，为平台发展注入更多专业技术力量。

参考链接：https://news.lmarena.ai/series-a/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

量子位智库 2025 年度「AI 100」榜单正式开启招募！

和我们一起在日新月异的 AI 产品市场中厘清背后脉络，把握未来动向，找到真正代表中国 AI 实力的巅峰力量

一键关注点亮星标

科技前沿进展每日见

宙世代