
作者 | 江宇
编辑 | 漠影
"Tokenmaxxing"(把 Token 消耗拉到极限)正在成为开发者社区的新热词。Token 预算,被视为衡量 AI 使用深度的新指标。有初创公司 CEO 甚至把 Anthropic 账单晒在 LinkedIn 上,当作公司 AI 化程度的重要证明。

然而,一个关键问题被忽略了:我们到底在用 Token 创造什么?
成本确实在飙升。高盛预测,未来几年 Token 使用量可能增长 24 倍以上;英伟达应用深度学习副总裁甚至坦言,AI 成本已超过团队薪资。

但产出的质量呢?数据给出了不太乐观的答案。
代码生成领域尤为典型。Waydev 跟踪 50 多家企业发现,AI 生成代码的长期保留率仅为 10%~30%。GitClear 的报告更直接:重度 AI 使用者的代码返工量是非 AI 用户的 9.4 倍。另一平台 Jellyfish 的统计则显示,部分团队代码吞吐量提升 2 倍,代价却是 Token 成本飙升近 10 倍。

当 Token 消耗持续增长,投入产出比变得尤为主要。Token 焦虑,正在成为 AI 落地的真实阻力。
在这场日益蔓延的 "Token 焦虑 " 中,Agnes AI 的举动显得格外扎眼——这家全球榜单排名第九的 AI Lab 宣布,自 6 月 1 日起,旗下全模态模型 API 无限期免费开放。
一、当 Token 越来越贵,一家 AI Lab 把账单直接清零
Agnes AI 本次开放覆盖其三款核心模型:文本模型 Agnes-2.0-Flash、图像模型 Agnes-Image-2.0-Flash 以及视频模型 Agnes-Video-V2.0。

在 Agnes AI 看来,高质量 AI 不应只属于高预算公司。Agnes AI 希望通过免费开放文本、图片、视频全模态模型 API,让有限的预算更多用于产品创新和功能迭代。
二、文本、图片、视频一起开放,一手实测看看实力
成本归零之后,开发者更关心的是:模型到底能不能打?我们分别对文本、图像和视频模型进行了实测。
文本模型:1M 超长上下文,快速搭建生产力场景
Agnes-2.0-Flash 支持 1M 上下文窗口和工具调用,覆盖代码开发、企业知识库、智能客服、文档处理及 Agent 工作流等场景。为了看看这些能力在实际场景中的表现,我们围绕代码生成、网页搭建和前端设计等方向进行了测试。
首先来看看编程能力。我们先让 Agnes-2.0-Flash 生成一款飞机大战网页游戏。
模型不仅生成了完整的玩法框架(战机、小怪、Boss 战、计分、生命值),还主动加入了连击提示、粒子爆炸、动态星空背景及音效。完成度远超一般 Demo,接近可直接游玩的成品。
第二个测试我们换了个方向。只用一句提示词,Agnes-2.0-Flash 便完成了一个 SBTI 人格测试网站的搭建。

从前面的两个案例来看,无论是网页小游戏,还是测试网站,Agnes-2.0-Flash 都能够较快完成。
接下来,我们进一步提高难度,把测试重点放在前端设计和产品界面生成能力上。
第三个测试是摄影作品展示网站。生成结果给人的第一印象是审美在线。整体布局和视觉风格已经接近不少独立摄影师作品集网站的完成度。

最终生成的页面包含信息流、搜索框、关注按钮、侧边导航栏、推荐内容等多个核心模块,关注、点赞等按钮还可以触发对应动画反馈。从视觉呈现和交互体验来看,整体设计与 X 的产品形态极为接近。
整体而言,如果仅作为产品 Demo 或前端原型展示,Agnes-2.0-Flash 的能力已经能够满足不少项目早期验证和演示需求。
图像模型:主打可编辑,人像精修、电商图和信息图全覆盖
Agnes-Image-2.0-Flash 支持图改图、多图融合、背景替换、局部编辑、文字修改和风格转换等能力,适用于电商主图、广告设计、产品海报和社交媒体内容生产等高频场景。
我们首先尝试了一组人物形象重塑任务,重点测试模型在人像特写场景下的编辑能力。模型需要保留原人物身份特征,同时将其重新塑造成韩流偶像打歌舞台风格。

第二组测试我们把目标放在电商设计场景。我们直接上传了一张护发精油的实拍照片,并要求模型生成一张完整的电商海报。

信息图是对图像模型更复杂的考验。为此,我们设计了两组不同方向的信息图任务。
第一组测试偏向流程图和知识科普场景。

第二组测试则进一步提高难度。我们要求模型根据海洋生物特征生成一套建筑概念设计信息图,既要展示灵感来源,也要呈现设计推导过程和最终建筑方案。

两组测试呈现出一个明显的特点:当信息密度持续提升时,Agnes-Image-2.0-Flash 不仅能够生成对应内容,还能够主动组织版面结构,让图片同时承担 " 展示 " 和 " 解释 " 两种功能。
对于需要制作科普内容、商业汇报、设计方案和社交媒体长图的用户来说,这类能力会更加实用。
视频模型:支持音画同出,电影感、角色演技都在线
Agnes-Video-V2.0 支持音画同步生成、首帧生视频、首尾帧生视频以及多帧生成能力,输出分辨率可选 720P 或 1080P,可用于短视频制作、广告素材生产、剧情分镜和自动化视频工作流。
首先测试的是 Agnes-Video-V2.0 的音画同步生成能力。
第一个案例是一段架子鼓演奏视频。
画面中的男孩坐在鼓组前完成演奏动作,在视频开头,他先用脚踩下底鼓踏板,随后才开始使用鼓槌进行演奏。整个过程中,鼓点出现的时机与人物动作能够保持同步。对于音乐演奏类内容而言,这类细节往往比单纯的画面质量更难处理。
第二个案例则进一步增加了复杂度。乐队画面中需要同时出现了主唱、吉他手和鼓手三名人物。
除了乐器演奏声之外,视频还包含主唱开场时清晰的人声报数。从最终效果来看,人声、乐器以及人物动作之间能够保持较好的同步关系。无论是主唱开口时的口型变化,还是鼓手和吉他手的演奏动作,都与对应声音基本匹配。
单从两个案例来看,Agnes-Video-V2.0 具备处理复杂音频元素的能力。相比后期单独配音的方案,音画同步生成能够减少剪辑和配音环节,对于短视频创作、音乐内容制作以及剧情视频生成都会更加方便。
随后,我们又测试了一个更具电影质感的场景。
视频中,一名身穿西装的男子走在街头,打电话与另一端的人交流。从最终效果来看,除人物口型与台词对应较好外,面部表情和情绪变化也会随着对话内容发生调整,整体表演很自然。更吸引人的还是整体画面的电影感,画面与背景声配合下,视频看起来更像实景拍摄的片段。
最后,我们测试了一个更具挑战性的人物表演场景。
整个片段几乎没有大幅度动作,更多依赖眼神、呼吸和面部细节来传递情绪。从最终效果来看,人物表演呈现出较强的层次感。相比单纯的 " 流泪 " 镜头,这种情绪表达更接近影视作品中的表演方式。
从微表情、情绪递进到镜头表现,Agnes-Video-V2.0 生成的视频还具备了戏剧张力,也让 AI 生成角色向真人演员的表现力又靠近了一步。
从工作流角度看,文本模型负责规划与代码,图像模型专注视觉编辑,视频模型完成动态呈现。三者并非孤立的单点能力,而是一套可开发者组合与调用的全模态能力体系。
三、全球 AI Lab 第 9 名,连续登上国际榜单
免费开放不是因为它能力薄弱,恰恰相反—— Agnes AI 目前位列全球 AI Lab 第 9 名,并连续获得多个国际评测体系认可。
文本模型 Agnes-2.0-Flash 进入 Claw-Eval 榜单,排名国内前 7。该榜单关注真实 Agent 场景下的复杂任务规划、工具调用和连续执行能力,被视为更接近实战的评测体系。

图像模型 Agnes-Image-2.0-Flash 则进入 Artificial Analysis Image Editing Leaderboard 前列。该榜单采用真实用户盲评,根据生成质量主观打分。

与此同时,视频模型 Agnes-Video-V2.0 也出现在 Artificial Analysis Image-to-Video(With Audio)排行榜中,覆盖音画同步生成能力评测。

结语:免费开放背后,一场关于 AI 基础设施的新竞争
随着模型性能不断接近,开发者对成本、稳定性、调用便利性和工程化能力的关注正在上升。
云计算行业曾经历过类似阶段:当基础设施逐渐普及,应用生态也随之扩张。AI 领域正在出现相似变化。越来越多开发者希望把精力投入产品设计和用户需求,却仍被调用成本牵制。
Agnes 此次无限期免费开放全模态模型 API,提供了一个新的观察样本:在继续提升模型能力的同时,进一步降低开发和使用门槛。这会让更多开发者、创作者和中小团队拥有持续试验新产品的空间。对于整个 AI 生态而言,能力增长之外,普及速度同样值得关注。




登录后才可以发布评论哦
打开小程序可以发布评论哦