Gemini3 太强了。
11 月 18 日,在所有人的期待中,Google 的最新 AI 模型 Gemini3 正式发布。这次,一切都回到了 Google 的节奏。
彻底屠榜
这是一个几乎 " 屠榜 " 了所有评测集的模型,而且,请注意,是一个通用模型在细分评测上碾压了诸多 " 推理模型 "、" 多模态模型 " 等细分领域模型。

根据 Google 的介绍,Gemini 3 是一个有原生多模态、强大推理和 Agent 能力的模型。在硅星人参加的发布前小范围沟通会上,Gemini 的团队强调这个模型的这些能力 " 不是分开的,是都在一处,都在一个模型里,你可以同时用这些能力 "。
今天用来评测模型各种能力的榜单,被 Gemini3 刷到了离谱的新高。
在多模态能力上,它的理解和推理都达到新高度:
Gemini 3 Pro 以 81% 的 MMMU-Pro 分数和 87.6% 的 Video-MMMU 分数直接刷新了这个多模态推理的记录。

案例介绍:Gemini 3.0 的视觉能力融入了推理,能主动解决不一致符号带来的歧义问题,对手写旧表格的 OCR 识别能力甚至优于受过训练的学生。
可能 Gemini 3 才真正第一次称得上是一个有多模态推理能力的模型。
Google 展示了一个很有趣的用法:做一个等离子体流在托卡马克里的可视化展现,同时用一首诗来捕捉核聚变的美。
在推理能力上:
它以突破性的 1501 分登顶 LMArena 排行榜。
它还在 SimpleQA Verified 上取得了 72.1% 的最新最优成绩,在事实准确性方面显示出巨大进步。这意味着 Gemini 3 Pro 在科学和数学等广泛主题上解决复杂问题时具有高度的可靠性。
它在 " 人类最后考试 " 上也展示了博士级推理能力(在不使用任何工具的情况下得分 37.5%),在 GPQA Diamond 上获得 91.9% 的高分。它还在数学领域为前沿模型设立了新标准,在 MathArena Apex 上达到了 23.4% 的最新最优成绩。
(一个 Prompt 生成复古任天堂模拟器,自带游戏且无需外部素材,一分钟就能完成输出。)
这还不算完,在深度推理模式 Deep Think 下,也就是让模型增加推理的 token 消耗和用更多时间去处理一些问题时,它在 " 人类最后考试 " 里,在不使用工具的情况下得分 41.0%,在 GPQA Diamond 得分 93.8%。而在 ARC-AGI 上,它还取得了前所未有的 45.1% 的成绩(使用代码执行)。而已经很强的 Gemini 2.5,这一项的得分只有:
4.9%。
在人人喊 scaling law 撞墙的今天,又搞出了十倍的提升。
而在 Agent 能力上:
Gemini 3 以 1487 ELO 分的成绩登顶 WebDev Arena 排行榜。它在 Terminal-Bench 2.0 上得分 54.2%,该测试衡量模型通过终端操作计算机的工具使用能力,并且在 SWE-bench Verified(76.2%)上大幅超越 2.5 Pro,该基准衡量编码智能体的能力。
另外,Gemini 的长上下文和推理的结合也有提升,在一个让 AI 模拟运营一个自动售货机,来考察它在 agent 场景的记忆能力的榜单 Vending-Bench 2 上,它也同样登顶—— Gemini 3 Pro 在完整的模拟一年的运营中保持了持续的工具使用和决策能力,在不偏离任务的情况下获得更高回报。

Google 官方也展示了一个案例,当你要求它:
" 根据我邮件中的详细信息,帮我搜索并预订一辆下周旅行用的中型 SUV,租金需控制在每天 80 美元以内。"
它在获得你充分的 Google 全家桶授权后,真的就完美帮你找到了这样一个服务,并放到你面前,你只需确认即可。
此次 Gemini 还推出了 Agent 模式,就是为了这样的场景,当你给他充分授权后,你能让 AI 把你一切的 Google 系产品都可以调用起来,完成复杂任务。
看了这些榜单的情况,只剩下 SWE-Bench Verified 上,Claude Sonnet 4.5 领先它 1 分,其他全部被它占了第一。
有人评论到:OpenAI and Anthropic are so over。
强大到开始全量铺开生成式 UI
在 Google 自己看来,这些全面提升的能力有多强?
它已经足够强大到,让 Google 认为 Gemini 这个 app 必须更改自己的交互形态了。
Google 这次给 Gemini 做了界面大更新。除了改变了页面设计,增加了更方便调用个人数据库的 " 我的资料 " 文件夹功能、" 彻底改进了购物体验 ",可以直接从 Google 购物图谱带来商品列表、比较表格和价格,该图谱包含超过 500 亿条商品列表等。最主要的,就是对输入输出的交互做了彻底改变。
什么 "ChatGPT" 式的一问一答,那是上个时代的做法,现在 Gemini 要直接给你全模态的可交互结果:
"Gemini 3 将突破界面设计的边界。它的推理和多模态能力已经解锁了一项我们称为生成式 UI 的新功能。
我们介绍一种新颖的生成式 UI,它动态创建沉浸式视觉体验和交互式界面——如网页、游戏、工具和应用程序——而且这些界面自动设计并完全定制以响应任何问题、指令或提示。
这些提示可以简单到一个单词,或根据需要长而详细的指令。这些新型界面与 AI 模型通常渲染内容的静态、预定义界面明显不同。"
说的更直接一点,哪怕一个词,也能给你一个 app。
比如,当你询问关于物理学里的三体问题(three body problem),你能得到一个可以交互的模拟界面,让你直接改变变量来观察结果。
而这整个答案更像是一个有文字有图片还有 3D 可交互网页的独立 web app。你甚至可以继续用自然语言开发下去最终把它变成你的一个项目。
目前,Gemini 先提供了两个 " 实验性 " 功能选项——视觉布局(Visual layout)和动态视图(Dynamic View)。不过 Google 也表示,为了帮助了解这些实验,用户最初可能只看到其中之一。
而且这个新的交互方式也会在 Google 的搜索里上线。在搜索的 AI mode 里提问,也会给出类似一个可交互 app 的搜索答案。
(新的 Dynamic View 展示,当你只是问了一下梵高,就能得到一个完整可交互的界面供你探索)
Google 还为此发布了一篇论文。这意思似乎是向所有人喊话:
你们也跟上啊。

此次发布里,还有一个非常值得重视的举动是,这一次 Gemini 3 在第一时间就部署到了 Google 搜索上,而且包括这个还被称为实验性的生成式 UI,也直接进入搜索的 AI mode。
这说明什么?
说明这是一个在 Google 看来已经训练到十分稳定,可以直接放入主营业务产品,而不用担心有反噬的模型,而且,它还是一个遥遥领先,没有人再能随便狙击的模型,一个完全按 Google 自己节奏训练和应用的模型。
当如此谨慎的 Google 都在 Gemini 的介绍里大量的使用 "any",强调这个模型可以让任何想法变成产品时,你品,你细细品,它对这模型到底有多自信。
One more thing: 彻底让 Agent 来开发软件的 "IDE" 平台 Antigravity
而对于 Google 来说,似乎这些还不够,Google 当天还顺带发了一个自己的全新 " 类 IDE"Vibe coding 产品,一个让 Agent 来主导软件开发全流程的平台—— Antigravity 。
Google 也不免俗的介绍了一句话开发的案例。
你输入一个 Prompt,就能得到一个完整的飞行追踪应用。但实现的过程正是不同所在,Antigravity 是一个让 Agent 主导一切的环境,它为多个 Agent 做好了多个它们可以使用的工具和环境,包括编辑器、浏览器、终端等。
"Google Antigravity 将 AI 助手从开发者工具箱中的工具转变为主动合作伙伴。虽然 Google Antigravity 的核心是熟悉的 AI IDE 体验,但其 Agent 已提升到一个专用界面,并可直接访问编辑器、终端和浏览器。现在,Agent 可以在验证自身代码的同时,自主地为您同时规划和执行复杂的端到端软件任务。"
Antigravity 也集合了 Google 各个强大模型:" 除了 Gemini 3 Pro,Google Antigravity 还与我们最新的 Gemini 2.5 计算机使用模型紧密耦合,用于浏览器控制,以及我们顶级的图像编辑模型 Nano Banana(Gemini 2.5 图像)。"
而且,Google 又给这个产品带来一个疯狂的新能力:它会在和你的配合中,学习你的 coding 风格, 和你搭建框架的喜好,最终越来越像你 ... 或者说,像一个更全能全栈工程师版的你 ...
如此高预期的模型,不仅没有让人失望,还带着惊喜一起到来。Google 真的是强。
而且,Google 势头也正猛。在硅星人参加的小范围提前沟通会上,Google 也顺带公布了最新的用户数据:
从上一季度的 4.5 亿用户,猛增到了这季度 6.5 亿用户。1300 万开发者在用 Gemini 等 Google 的模型开发,而本季度的日常调用也同比翻了 3 倍。

据 Gemini 团队透露,过去一季度的增长很大程度归功于 Nano Banana。
要知道,Nano Banana 2 也在传闻中,排队等待 Google 的发布 ...... 不得不感慨 Google 的工具箱里,武器实在太多了。
————————————
另,以下是 Google 和 Gemini 团队在此次发布前的小范围沟通实录。
硅星人:能否分享一下在训练这个新模型过程中的一些 "Aha moments"?
Gemini 团队:这是个有趣的问题,因为我认为在使用这个模型时,有很多时刻你能真正感受到它的推理能力,也能感受到它在多模态能力上的强大。我想指出几个时刻。第一个是我第一次用它进行氛围编码(vibe coding)的时候。令人惊艳的是,它仅凭非常简单的提示就能创造出各种游戏。能够在那个环境中创建 3D 可视化并玩一个真正的游戏,我觉得太棒了。
实际上,我们的一位工程师一直在用它来创建游戏,这些游戏明天就会在 YouTube 上发布,因为你可以用这些游戏创造出如此丰富、高保真的体验,我觉得这太棒了。另一个我认为我们不常谈到的 " 顿悟时刻 " 是该模型在多语言性能上的强大。
对我来说,特别有趣的一点是,拿一首用古吉拉特语写的诗——我父母从小说的语言——不仅进行翻译,还在此基础上进行创作。你能看到模型的细微差别、创造力和写作风格。我认为那也是另一个让我感叹 " 这个模型非常聪明,能够将多个要素融合在一起 " 的时刻。我觉得真正酷的是,当你找到这些时刻,你可以将多模态输入、复杂的推理问题,以及你希望看到的输出格式结合起来。我认为这时你才能真正看到 Gemini 3 的魔力显现。
问:你会如何描述 AntiGravity 在当前生态系统中的定位?
Gemini 团队:这是个好问题。先提醒一下,我认为 AntiGravity 会非常令人兴奋。大语言模型和 AI 确实改变了我们的编码方式,使我们软件工程师能够保持在一个非常高的层次上,借助智能体的帮助处理真正复杂的任务,这样你就可以专注于最终目标,并更快地达成。
所以 AntiGravity 真正构建在此基础上,构建在模型的能力之上。这是一个新的 IDE。市场上也有其他 IDE,需要明确的是,我们的模型在多个 IDE 中以及通过 API 供开发者继续使用。但 AntiGravity 将给我们提供另一种与开发者接触的方式,了解他们的用例,了解那些真实世界任务和挑战,然后帮助我们改进模型,通过成为这种以智能体为中心的 IDE,为他们提供最佳体验。我认为这将对软件开发带来一点全新的思路。
问:对于消费者来说,你期望 Gemini 智能体有哪些使用场景?
Gemini 团队:我们希望帮助人们应对生活中遇到的更复杂的任务。我个人在几件事上正在使用它:首先,如果我要找演唱会门票之类的,不用再自己去搜索所有不同选项,为带两个孩子的家庭找到合适的套票,我可以让智能体去完成,它会找到合适的配置,并带我到达可以购买的那一步,然后我只需点击一个按钮就能继续完成购买。
另一件我觉得很酷的事是使用智能体模式来帮你分类处理邮件收件箱。我开始每天早上这么做:我醒来有 50 封邮件,要花很长时间逐一查看并决定怎么处理。我可以使用智能体模式来帮我处理这些,它会告诉我:这里有你需要完成的任务、这里有你需要回复的邮件、这些是可以归档的。这真的为我节省了大量时间,我非常兴奋能让更多人使用到这个功能。
问:随着 Pro 版本发布,我们能期待 Flash 和 Flashlight 很快推出吗?
Gemini 团队:是的,我的意思是,我们确实希望构建 Gemini 3 模型家族。这是我们首要考虑的。
我们感到兴奋的是,看看对 Gemini 3 Pro 的反馈如何?人们用它做什么?我们在哪里看到机会?然后当我们思考完整的模型家族,思考 Flash 和 Flashlight 时,我们首要考虑的是如何构建这个主力模型?合适的成本和延迟应该是怎样的?我们如何思考正确的使用场景?所以我们会继续利用 Pro 版本的反馈来确保我们能够持续构建。你们很快就会看到我们推出更多产品。
问:Gemini 应用最近用户增长显著,团队在此期间做了什么来如此快速地加速采用?
Gemini 团队:一个主要因素是我们在 Nano Banana 上看到的病毒式传播,特别是在泰国、印度尼西亚、印度等国家。显然,这是一个极其成功的产品,很多人都想玩一玩。如果你看到那些手办潮流和许多其他人们真正想参与并分享给朋友的东西。
我们也对我们与 GEO 的合作以及我们为学生提供的优惠感到非常兴奋。我们看到学生群体中有很多使用热情,他们真的很想用 Gemini 来帮助完成作业和课堂学习材料。
最后我想说的是,模型质量真的非常重要。我们在 2.5 Pro 上看到了这一点,我们也很期待看到人们将如何使用 Gemini 3。
问:你们是否在用 AntiGravity 与 Cursor 等工具竞争?这是企业最大的使用场景之一吗?
Gemini 团队:非常感谢。这是个好问题。我不会这样看待它。这次发布中,我们实际上正在与 Cursor 进行非常紧密的合作。我们在许多不同行业都有许多合作伙伴,并与他们密切合作。对我们来说,在用户所在的地方触达并连接用户非常重要。
AI 开发以及 AI 如何影响不同领域和行业也还处于非常早期的阶段。我认为这对我们来说能够进行实验也很重要。我相信会有其他人也在实验,每个产品本身也会不断发展,对吧?我们将通过我们的模型和许多其他想法继续与 Cursor 保持紧密合作。除此之外,我想我们对 AntiGravity 将创造的接触点也感到兴奋。
问:AI 行业有声音称迭代速度已放缓,扩展定律已失效。但 Google 的大模型似乎取得了显著进展。到目前为止,你对大模型的迭代速度以及技术是否还能做到这一点有什么看法?
Gemini 团队:这是个好问题。当然,关于这方面的讨论有很多。我认为,当我观察 AI 领域时,我看到了很多进展,而且进展速度非常快。我认为最好的观察方式是 AI 领域总体上对许多不同行业产生的影响。你可以看到这一点在越来越多的不同职业中发生。人们正在使用 AI 模型来帮助他们的工作。学生正在使用 AI 模型来帮助他们的作业。
或者我们在日常生活中使用这些模型来了解事物,了解我们好奇的事物,想了解更多的东西。所有这些方面,模型在我们的日常生活中变得越来越有影响力。所以我认为进展非常快。当我观察我们自己模型能力的进展时,我认为我们看到非常令人兴奋的进展正在发生。
我认为有时候,并不总是全新的能力出现,而是模型所使能的能力。你能做什么新事物?从模型开发的角度来看,当我们观察预训练、后训练时,我们看到各方面都有相当令人振奋的发展。我认为随着我们了解更多,随着我们与用户进行更多互动,这将继续一段时间,这对我们来说非常重要,能够通过我们的产品进行这个开发周期,触达我们的用户。我们将更多了解他们的需求在哪里,他们对什么感兴趣,他们想学什么,这将引导我们引入新能力并构建技术。


登录后才可以发布评论哦
打开小程序可以发布评论哦