智东西 12 月 18 日报道,昨晚,谷歌发布了Gemini 3 Flash,旨在用更低的成本提供前沿的智能水平。
具体来看,它输出每百万 token 的价格仅为Claude Sonnet 4.5 的 20%、GPT-5.2 的 21%,却能在基准测试上达到甚至超越这些旗舰级模型的水平。
即便是和 Gemini 3 Pro 相比,Gemini 3 Flash 也极具性价比。Flash 的价格仅为 Pro 的 25%,却在 MMMU-Pro、SWE-bench Verified 这些核心基准测试上,超过了 Pro 版本的模型。

此前发布的 Gemini 3 系列模型在复杂推理、多模态和视觉理解、智能体及 Vibe Coding 任务方面都展现出优势,Gemini 3 Flash 保留了这一基础,将 Gemini 3 Pro 级别的推理能力与 Flash 级别的延迟、效率和成本相结合。
谷歌首席科学家 Jeff Dean 称,Gemini 3 Flash 不仅比 2.5 Pro 质量更高,速度也快 3 倍,而且价格仅为后者的几分之一。以下是并排演示:
Gemini 3 Flash 目前已经全面开放,开发者可通过 Google AI Studio 中的 Gemini API、Gemini CLI 以及智能体开发平台 Google Antigravity 使用。而普通用户能通过 Gemini 应用程序和谷歌搜索中的 AI 模式使用。
01. 专为迭代式开发打造,还帮你 " 用嘴编程 "
Gemini 3 Flash 究竟能做什么?谷歌称,这是一款专为迭代式开发打造的模型,能够以低延迟提供接近 Gemini 3 Pro 级别的编程性能。
谷歌分享了多个案例。比如,Gemini 3 Flash 可以在一个手部追踪的 " 弹球解谜游戏 " 中实现多模态推理,提供近乎实时的 AI 辅助。
它还可以近乎实时地构建和 A/B 测试新的加载动画设计,简化了从设计到代码的流程。
使用多模态推理,Gemini 3 Flash 可快速分析带有上下文 UI 覆盖层的图像,并生成字幕,最终将静态图像转化为交互式体验。
凭借在推理、工具使用和多模态能力方面的出色表现,Gemini 3 Flash 特别适合希望进行更复杂视频分析、数据提取和视觉问答的开发者。
Gemini 3 Flash 的多模态推理能力可用于帮助用户看、听和理解任何类型的信息。用户可以要求 Gemini 理解视频和图像,并在几秒钟内将该内容转化为有帮助且可操作的计划。
Gemini 应用程序中的 Gemini 3 Flash 可以分析短视频内容并给你一个计划,比如如何改进你的高尔夫挥杆。
由于 Gemini 3 Flash 针对速度进行了优化,它可以在你仍在绘图时就 " 看到 " 并猜出你画的是什么。
你可以上传一段录音,Gemini 3 Flash 将识别你的知识盲点,创建一个自定义测验,并对答案给出详细解释。
或者,也可以尝试 " 用嘴编程 ",仅用语音输入从零开始构建有趣、有用的应用程序。Gemini 3 Flash 可以在几分钟内将非结构化的想法转化为一个功能正常的应用程序。
02. 多领域性能超越 Pro 级模型,可自动调节思考量
Gemini 3 Flash 在基准测试上表现如何?它在 GPQA Diamond(90.4%)和 Humanity's Last Exam(不使用工具时为 33.7%)等博士级推理和知识基准测试中,可与更大的前沿模型相媲美,并且在多项基准测试中显著优于 Gemini 2.5 Pro。
在评估编码智能体能力的基准测试 SWE-bench Verified 中,Gemini 3 Flash 取得 78% 的成绩,不仅超越了 2.5 系列,也超过了 Gemini 3 Pro。
它还在 MMMU Pro 上达到了 81.2% 的分数,与 Gemini 3 Pro 相当,实现了最先进的性能。
在下图中展示的基准测试中,Gemini 3 Flash 在几乎所有基准测试上都超过了 Claude Sonnet 4.5、Gemini 2.5 Pro 等模型。

除了前沿级别的推理和多模态能力外,Gemini 3 Flash 的构建旨在实现高效率,推动了质量与成本、速度之间的帕累托边界。下方散点图显示了多个语言模型的 LMArena Elo 得分与每百万 tokens 价格的关系,其中一条线标出了穿过 Gemini 3 Pro、Gemini 3 Flash 和 Gemini 3 Flash Lite 的帕累托边界。

在思考预算拉满时,Gemini 3 Flash 能够调节其思考量。对于更复杂的用例,它可能会思考更长时间。但根据典型流量测量,在以更高的性能准确完成日常任务的前提下,它平均比 2.5 Pro 少使用 30% 的 tokens。
03. 结语:Gemini 3 模型版图补全,有望深度嵌入日常应用
Gemini 3 系列模型自发布以来就广受好评,不过其高昂的成本让不少用户望而却步。Gemini 3 Flash 补全了 Gemini 3 家族在轻量化、高性价比方面的布局,回应了开发者在真实生产环境里的诉求。
从迭代式开发、Vibe Coding,到多模态应用、实时交互和智能体系统,Gemini 3 Flash 所展现的更高性价比,有望帮助智能更广泛地嵌入日常应用和商业系统之中。


登录后才可以发布评论哦
打开小程序可以发布评论哦