全球AI Lab前十！Agnes新模型发布，以全模态+超低价定义模型性价比

如果说过去一年，全球 AI 行业的关注点还集中在 OpenAI、Google、Anthropic、Meta 与 DeepSeek 等头部公司，那么 Agnes 的连续上榜，则意味着全球 AI 竞争格局正在出现新的变量。

近日，Agnes AI 旗下模型 Agnes-2.0-Flash 与 Agnes-Image-2.0-Flash 同时进入国际权威榜单前列，从 PinchBench 全球前十，到如今 ClawEval 与 Artificial Analysis 双榜持续上榜，Agnes 已连续获得多个国际评测体系认可，并正式进入 " 全球 AI Lab 排名第 9" 的位置。

目前 Agnes 的模型能力与 Harness 系统已经开始服务数千万规模用户，已经被广泛应用于 AI 内容生成、自动化工作流、网页操作、多模态创作以及开发者工具等场景。

AI 行业，正在出现新的全球玩家

本次 Agnes-2.0-Flash 上榜的 Claw-Eval（https://claw-eval.github.io），并不是传统意义上的 " 刷题榜 "。

相比过去主要测试数学、知识问答或者代码能力的 Benchmark，Claw-Eval 更强调模型在真实 Agent 场景中的综合执行能力，被不少开发者视为当前 " 更接近 AI Agent 实战能力 " 的重要评测体系之一。

随着 AI 行业从 Chatbot 阶段进入 Agent 阶段，行业对于模型的要求，已经不再只是 " 会回答问题 "，而是 " 能否真正完成任务 "，这也是为什么越来越多开发者开始关注 Claw-Eval 这类真实任务导向型榜单。

而此次 Agnes-2.0-Flash 在部分任务中超越 Gemini Flash 与 MiniMax M2.7 等知名模型。这意味着 Agnes 已经开始具备进入全球模型第一梯队竞争的能力。

除了文本模型外，Agnes 在图像编辑方向同样取得突破。

本次 Agnes-Image-2.0-Flash 进入的 Artificial Analysis 是当前国际 AI 行业关注度较高的第三方模型评测体系之一，也表明 Agnes 在图像编辑方向已经达到国际主流水平。

尤其在海外 AI 圈，Artificial Analysis 已经逐渐成为衡量模型综合能力的重要观察窗口。

Artificial Analysis 的 Image Editing Leaderboard 采用真实用户盲评机制，重点评估模型在真实图像编辑场景中的表现。评测过程中，用户并不知道图片对应的模型来源，而是直接根据生成质量进行主观选择与打分，因此其结果被很多开发者与行业机构认为更接近真实用户体验。

更值得注意的是，Agnes 本次上榜的并不是超大参数模型，而是轻量级高效率模型。在更低推理成本、更低 GPU 消耗情况下依然进入全球前列，这也是近期全球开发者社区开始重新关注 Agnes 的重要原因。

比性能更激进的，是 Agnes 的价格策略

相比榜单成绩，更让行业关注的，其实是 Agnes 的定价。

目前，Agnes-2.0-Flash 的官方 API 定价为每百万输入 tokens 0.03 美元，每百万输出 tokens 0.15 美元，成本已经低于大多数主流模型。据公开信息显示，其价格已经低于国际与国内头部模型产品，仅为 DeepSeek V4 Flash 的约一半。

而在图像模型方向，Agnes 同样展现出了极强的价格竞争力。

目前，Agnes-Image-2.0-Flash 的价格仅为 3 美元 /1000 张图片，而当前行业主流模型的平均价格普遍在 30 美元 /1000 张图片左右，在保持高质量图像生成与编辑能力的同时，Agnes 的成本仅约为行业平均水平的十分之一。

Agnes 的出现，并没有选择简单地 " 堆参数 "，而是更强调：

推理效率优化

Agent 场景适配

多模型协同

更低成本部署

更高性价比输出

这种路径，也让 Agnes 在当前 AI 行业 " 推理成本大战 " 中，形成了明显差异化。

尤其对于开发者而言，这意味着他们第一次有机会，以远低于行业平均水平的成本，大规模调用第一梯队 AI 模型能力。

当行业还在讨论谁拥有最强模型时，Agnes 已经开始推动另一件更关键的事情——让全球开发者第一次有机会，以更低成本、更高效率，大规模使用真正具备 Agent 能力的 AI 模型。

这或许也意味着，全球 AI 行业正在迎来一个新的竞争阶段——不仅比拼模型能力，也开始真正比拼效率、成本与大规模落地能力。