谷歌更新Gemini API定价，按推理使用分档计费

钛媒体 App 4 月 3 日消息，谷歌近日对 Gemini API 的计费档位进行更新，优化方案与定价均基于实际推理使用需求制定。本次新增的推理服务档位包括：标准 ( Standard ) 、弹性 ( Flex ) 、优先 ( Priority ) 、批量 ( Batch ) 和缓存 ( Caching ) 版。其中，弹性推理档位通过利用非高峰闲置算力资源，提供标准价格五折优惠，目标延迟为 1 至 15 分钟，但不提供延迟保证。批量 API 档位同样提供标准费率五折优惠，延迟最长可达 24 小时。缓存档位计费依据缓存词元 ( Token ) 数量与存储时长，推荐用于搭载复杂系统指令的对话机器人、长视频文件重复分析，以及大规模文档集查询等场景。优先档位定价则比标准价格高出 75% 至 100%，延迟可控制在毫秒至秒级。谷歌建议该档位用于实时客服聊天机器人、实时欺诈检测及业务关键型智能助手等场景。（广角观察）

宙世代

一起剪

相关标签