谷歌开源大模型评测工具LMEval，打通谷歌、OpenAI、Anthropic

智东西

编译 | 金碧辉

编辑 | 程茜

智东西 5 月 28 日消息，据科技媒体 The Decoder 5 月 26 日报道，当天，谷歌正式发布开源大模型评测框架 LMEval，支持对 GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B 等主流模型进行多模态能力标准化评估。

LMEval 基于 LiteLLM 框架（能让开发者通过统一 API 便捷调用 GPT、Claude、Llama 等上百款大模型，并支持流式响应、批量推理及成本监控等功能的开源框架）打通谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 五大厂商 API 接口，首次实现文本、图像、代码三类任务的一站式评测，并通过增量评估技术减少 80% 重复测试算力消耗。

LMEval 的源代码和示例笔记本已经在 GitHub 上公开，供广大开发者使用和研究。

地址：

https://github.com/google/lmeval

一、跨平台互通，采用增量评估 + 多线程并行计算技术，测试效率提升 5 倍

LMEval 基于 LiteLLM 框架，将谷歌、OpenAI、Anthropic、Ollama、Hugging Face 的 API 接口标准化，开发者无需针对不同平台重写测试代码。

同时，科技媒体 The Decoder 援引谷歌官方说道，LMEval 系统采用增量评估技术，配合多线程并行计算，能节省 80% 算力，原本 8 小时的测试流程可压缩至 1.5 小时。

在评估场景层面，LMEval 突破了单一文本问答的局限，将图像理解、代码生成等场景纳入评测范畴，满足多领域对大模型能力评测的需求。

在题型方面，LMEval 提供了是非判断、多选问答、开放式生成等多达 12 种题型，为全面评估模型在不同任务形式下的表现创造了条件。同时，LMEval 模块化设计允许开发者依据自身研究或业务需求，灵活添加新的评估维度，增强了框架的扩展性与适应性。

在安全评估层面，LMEval 新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略，这对于评估模型在处理敏感信息时的可靠性意义重大。

Giskard 的安全评分显示了不同的 AI 模型如何有效地规避潜在的有害内容。百分比越高，安全性就越高。（图源：谷歌）

在数据存储与隐私保护层面，LMEval 将测试数据存储于自加密的 SQLite 数据库中，本地访问需密钥验证，有效阻断搜索引擎抓取，在数据使用过程中全方位保障数据安全与隐私。

二、评测成本直降 90%，月之暗面已部署

据 The Decoder 报道，LMEval 采用增量评估技术后，企业新增测试场景的运维成本降低 90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年 5 月 26 日谷歌 LMEval 框架发布后的媒体沟通会上透露，该工具已应用于其内部流程优化，在未使用 LMEval 前，月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。

而引入 LMEval 后，原本复杂冗长的流程得以简化，现在仅需几天就能完成一轮全面评测，研发周期大幅缩短超两周。

LMEval 配套的 LMEvalboard 可视化工具支持生成雷达图，能直观对比不同模型在各项能力上的表现短板。

开发者点击图表即可查看具体错误案例，还能并排对比不同模型对同一问题的响应差异，助力精准定位模型性能优劣，为模型的优化与改进提供有力依据

结语：谷歌开源 LMEval 框架，打通五大厂商 API 接口

谷歌开放的开源框架 LMEval 基于 LiteLLM 框架，打通谷歌、OpenAI、Anthropic、Ollama 和 Hugging FaceAPI 的 API 接口，让开发者能在统一环境下评测不同来源模型。通过模块化设计，它可同时满足文本、图像、代码等多模态评估需求，提供 12 种题型，还能灵活添加新评估维度。而增量评估技术配合多线程并行计算，节省 80% 算力，使企业新增测试场景的运维成本降低 90%，显著提升测试效率、降低测试成本。

谷歌推出的 LMeval 框架通过标准化和灵活性的结合，为研究人员和开发者提供了便利。在未来，随着 AI 技术的不断演进，LMeval 框架或有可能成为行业内评测工作的标准，助力推动 AI 模型的持续发展与优化。

宙世代

一起剪

相关标签