
智东西
作者 | 程茜
编辑 | 心缘
智东西 11 月 19 日报道,今天凌晨,谷歌最强推理模型 Gemini 3 终于亮相,一个模型囊括了原生多模态、推理、Agent 多种能力。
谷歌 DeepMind 研究团队称,这是全球最先进的多模态理解模型、谷歌最强大的 Agent 编程和氛围编程模型,能呈现更丰富的可视化效果和更深度的交互体验,且完全构建于最先进的推理技术基础之上。
该模型基于谷歌 TPU 进行训练,支持 100 万个 token 的上下文窗口,适用于需要以下功能的应用:Agent、高级编程、长上下文、多模态理解、算法开发。
刚一发布,Gemini 3 就几乎屠榜所有评测集,以 1501 Elo 得分位列 LMArena 大模型竞技场第一。

OpenAI 联合创始人、CEO 萨姆 · 阿尔特曼(Sam Altman)和 xAI 创始人、CEO 埃隆 · 马斯克(Elon Musk)纷纷向谷歌发来 " 贺信 "。阿尔特曼发推评价 "Gemini 3 看起来很不错 ",谷歌 CEO 桑达尔 · 皮查伊(Sundar Pichai)用了个表情包回复。

马斯克转发了谷歌 DeepMind CEO 戴密斯 · 哈萨比斯(Demis Hassabis)的推文称 " 干得不错 "。

今天起,谷歌将在以下平台部署 Gemini 3:
适用于 Gemini 应用的所有用户,以及在搜索的 AI 模式中使用 Google AI Pro 和 Ultra 订阅服务的用户;适用于 Gemini API 中的开发者、谷歌全新 Agent 开发平台 Antigravity 的开发者,以及 Gemini CLI 的开发者;适用于 Vertex AI 平台与 Gemini 企业版的企业用户。
此外,谷歌将在未来几周向 Google AI Ultra 订阅者开放 Gemini 3 的深度思考模式,目前其还在进行安全评估。
对于 Gemini 3 的发布,皮查伊认为,这一模型可以让用户的任何想法变为现实。
一、分分钟造出交互游戏、App,还能帮你学新知识
先来看下 Gemini 3 Pro 能做什么。
Gemini 3 能编写托卡马克装置中等离子体流的可视化代码,并创作捕捉核聚变物理原理的诗歌。
如果用户想学习家族传统烹饪,Gemini 3 可以解读并翻译不同语言的手写食谱,制作成可共享的家庭食谱。
或者如果用户想学习一个新话题,可以给 Gemini 3 输入学术论文、长视频讲座或教程,它还能生成交互式抽认卡、可视化或其他格式的代码,帮助用户掌握这些内容。
Gemini 3 还可以分析用户的匹克球比赛视频,找出可以改进的地方,并生成整体动作提升的训练计划。
AI 搜索模式下,Gemini 3 能学习复杂主题内容,如借助搜索功能中 AI 模式的生成式用户界面,学习像 RNA 聚合酶作用机制这类复杂知识点。值得一提的是,这也是谷歌首次在模型发布首日,就将新模型直接集成至 AI 搜索功能中。
Gemini 3 可以编写拥有丰富可视化界面和互动性的复古 3D 飞船游戏。
该模型通过代码构建、解构和重新创作精细的 3D 体素艺术,能让用户的想象变为现实。
Gemini 3 能使用着色器创建可玩的科幻世界。
其还可以生成更具实用性的元素丰富的互动性网页和 App。
二、屠榜评测集,刷新大模型能力天花板
再来看下 Gemini 3 Pro 的基准测试结果。
谷歌博客提到,Gemini 3 Pro 在一系列基准测试中进行了评估,包括推理、多模态能力、Agent 工具使用、多语言性能和长上下文,其在主要的 AI 基准测试中都远远优于 Gemini 2.5 Pro,并以 1501 Elo 得分位列 LMArena 大模型竞技场第一。

该模型展现出博士级推理能力,在 " 人类终极测试 "(不使用任何工具情况下得分 37.5%)和 GPQA 钻石级测试中均斩获最高分,在 MathArena Apex 测试中取得 23.4% 的最新顶尖成绩。
除了文本,Gemini 3 Pro 在 MMMU-Pro 上获得了 81%,在 Video-MMMU 上获得了 87.6% 的多模推理。它在 SimpleQA Verify 上也获得了最先进的 72.1%。
这意味着 Gemini 3 Pro 能够以高度可靠性解决涵盖科学和数学等广泛主题的复杂问题。
Gemini 3 的深度思考和多模态理解能力更新,可以帮助用户解决更复杂的问题。测试中,Gemini 3 Deep Think 在 " 人类终极测试 "(未使用工具时为 41.0%)和 GPQA Diamond(93.8%)中表现优于 Gemini 3 Pro。它在 ARC-AGI-2(代码执行,ARC 奖项认证)上取得了 45.1% 的成绩,均超过谷歌自家前代模型,以及 OpenAI、Anthropic 的模型。

编程能力中,Gemini 3 是谷歌迄今为止构建过的最佳氛围编程和 Agent 编程模型。
该模型以 1487 Elo 得分登顶 WebDev 竞技场排行榜。它在 Terminal-Bench 2.0 测试模型工具使用能力上,得分为 54.2%,在衡量编程 Agent 能力的基准测试 SWE-bench Verified 上表现远超 2.5 Pro。
开发者可以在 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的代理开发平台 Google Antigravity 中使用 Gemini 3 进行构建。它还支持第三方平台,如 Cursor、GitHub、JetBrains、Manus、Replit 等。
自 Gemini 2 以来,谷歌 Gemini 模型已经在 Agent 方面取得诸多进展,此次 Gemini 3 还登顶了 Vending-Bench 2 排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力,其结果显示,Gemini 3 Pro 在一整年的模拟运营中,始终保持稳定的工具使用和决策连贯性,既未偏离任务目标,又实现了更高收益。

这意味着 Gemini 3 能帮助用户完成日常生活中的事务,如预约本地服务或整理收件箱等。
三、全新 Agent 开发平台亮相,实现端到端软件开发自动化
今天谷歌还发布了全新的 Agent 开发平台 Google Antigravity。
借助 Gemini 3 的高级推理、工具使用及 Agent 编程能力,谷歌 Antigravity 将 AI 辅助功能从开发者工具包里的一个工具,转变为积极主动的合作伙伴。
尽管谷歌 Antigravity 的核心仍是 AI 集成开发环境(AI IDE)体验,但其 Agent 已升级至专属界面,并能直接访问编辑器、终端和浏览器。如今,这些 Agent 可以自主规划并同步为开发者执行复杂的端到端软件任务,同时还能对自身代码进行验证。
除了 Gemini 3 Pro,Google Antigravity 还将结合谷歌最新的 Gemini 2.5 电脑使用浏览器模型,以及图像编辑模型 Nano Banana。
谷歌 Antigravity 借助 Gemini 3,为航班追踪应用打造了端到端的 Agent 工作流。该 Agent 能够自主规划、编写应用代码,并通过基于浏览器的计算机操作来验证其执行效果。
最后谷歌还提到,Gemini 3 是其迄今为止最安全的模型,并且经历了谷歌 AI 模型中最全面的安全评估。模型评测结果显示,其谄媚行为减少,对即时注射的抵抗力增强,并增强了对网络攻击滥用的防护。
从 2023 年 12 月 Gemini 模型发布至今已近两年:Gemini 1 在原生多模态和长上下文窗口上的突破,扩展了可处理信息的种类以及处理量;Gemini 2 可帮助用户处理更复杂的任务和想法,使 Gemini 2.5 Pro 的排名在 LMArena 中领先超过六个月。
如今,谷歌基于 Gemini 模型的搜索功能 AI Overviews 现在月活用户达到 20 亿,Gemini 应用月活用户超过 6.5 亿,超过 70% 的云端客户使用谷歌 AI 功能,1300 万开发者用其生成模型构建了作品。
结语:免费开放 + 性能飙升!Gemini 3 搅动大模型竞争格局
谷歌 Gemini 3 相比前几代模型性能大幅提升,可以感知用户提示词中的细微线索及复杂问题,还能理解用户请求的背景和背后意图,让用户用更少的提示获得所需信息。谷歌博客提到,在 Gemini 3 发布的下一个新篇章中,他们将继续突破智能、Agent 和个性化的前沿,让 AI 真正惠及所有人。
随着 Gemini 3 正式亮相,加之谷歌此次免费开放其使用权限,一场围绕大模型的新一轮行业竞争已全面打响。


登录后才可以发布评论哦
打开小程序可以发布评论哦