钛媒体 1小时前
拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 硅谷 101

毫无疑问,Google 最新推出的 Gemini 3 再次搅动了硅谷的 AI 格局。在 OpenAI 与 Anthropic 激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从 " 追赶者 " 变成了 " 领跑者 "。

此次 Gemini 3 不仅在多模态能力上实现了新的飞跃,更被视为谷歌对 Scaling Law 最极致的一次执行。

硅谷 101 在 11 月 20 日举办了一场直播,邀请了四位处于 AI 研发与应用最前线的嘉宾:

田渊栋,前 Meta FAIR 研究总监、AI 科学家

陈羽北,加州大学戴维斯分校助理教授、Aizip 联合创始人

Gavin Wang,前 Meta AI 工程师、负责 Llama 3 后训练及多模态推理

Nathan Wang,资深 AI 开发者、硅谷 101 特约研究员

我们试图透过 Gemini 3 的发布,试图回答关于 AI 未来的几个关键问题:Gemini 3 到底强在哪里?谷歌究竟做对了什么?全球大模型竞争格局将如何改变?LLM 的未来走向,以及在 LLM 之外,最前沿的 AI 实验室正在关注什么?

以下是我们直播中的嘉宾浓缩观点。

01 体验实测:Gemini 3 到底强在哪里?

在 Gemini 3 发布后的 48 小时内,各大榜单被迅速刷新。不同于以往模型仅在单一维度(如代码或文本)上的提升,Gemini 3 被认为是真正意义上的 " 全模态原生 " 模型。对于使用者而言,这种技术参数上的提升转化为怎样的实际体感?

来源:LM Arena

陈茜:各位这两天都在高强度测试 Gemini 3,它真的如排行榜那样霸榜吗?大家能不能举例讲讲,它到底好在哪里?

Nathan Wang:我这两天大概集中使用了三个主要产品:Gemini 主 App、针对开发者的 Google AntiGravity,以及今天刚发布的 Nano Banana Pro。

说实话,AntiGravity 给我感觉非常像是一个 Agentic 时代的 IDE(集成开发环境)。它和 Cursor 或者 Claude Code 不太一样的地方在于,它把界面分成了 "Manager View"(经理视角) 和 "Editor View"(编辑视角)。

以前我们在 Cursor 里,虽然 AI 帮我们写代码,但感觉还是 " 我 " 在写。但在 AntiGravity 里,Manager View 让你感觉你是坐在那里的经理,底下有 8 到 10 个 Agent 小弟在干活。你可以看着它们分工,有的在写程序,有的在 Run Unit Test(单元测试)。

最惊艳的是它结合了 Browser Use 的功能。比如我写了一个前端网页,它有一个叫 Screenshot Pro 的功能,跑分非常高。它可以直接调用 Chrome 浏览器打开那个网页," 看 " 着屏幕去测试。如果你让它上传一个文件、点击一个按钮,它能像人一样去操作。这意味着测试加上开发完全自动化了,变成了一体式的开发体验。

另外,Nano Banana Pro 在生成幻灯片这个点上解决了我很大的痛点。以前我让 AI 做 PPT,比如 " 解释一下 Gemini 从 1.0 到 3.0 的发展路线 ",它往往逻辑链是断的。但这次我试了一下,它不仅能把逻辑理顺,还能生成非常复杂的图表。我觉得市面上那些做 Slides(幻灯片)的软件可能都要被它取代了。

田渊栋:前 Meta FAIR 研究总监、AI 科学家

田渊栋:我一般的习惯是,新模型出来先看它能不能 " 续写小说 "。这是我个人的一个 Benchmark,因为全世界除了我也没几个人这么测,所以它肯定不会 Overfitting(过拟合),这比较客观。

在一两年前,模型写小说基本上是 " 公文风 ",不管你给它什么开头,它写出来都是那种官方口吻,完全脱离语境。到了 Gemini 2.5 的时候,我发现它文笔变好了。比如我给它一个废墟的场景,它会描写得很细致:墙壁倒塌的样子、环境萧索的氛围,像个文科生写的,但情节上平铺直叙,没什么抓人的地方。

但这次 Gemini 3 让我有点惊喜。它不仅文笔好,它开始懂得 " 反转 " 了。它设计的情节互动非常有意思,甚至让我觉得:" 咦,这个点子不错,也许我可以存下来用到我自己的小说里。" 这是第一次我感觉到 AI 在情节构思上给了我启发,而不仅仅是词藻堆砌。它似乎对作者的深层动机有了理解。

不过,在科研 Brain storming(头脑风暴)上,它还是那个老样子。怎么形容呢?它就像一个刚刚入学的、博闻强记的博士生。 你问它什么它都知道,能跳出很多新名词、新数学工具。你会觉得 " 哇,这个我没见过,很棒 "。但如果你想跟它深入探讨一个问题的本质,或者让它判断哪个方向更有前途,它就做不到了。它缺乏那种只有资深人类研究员才有的直觉和深层思考。所以它依然是一个顶级的 " 做题家 ",但在创造性思维上,暂时还没看到本质突破。

Gavin Wang :我首先感叹一下,Google 的 " 大厂之力 " 真是恐怖如斯,生态系统太完整了。技术层面,我最关注的是 ARC-AGI-2 Benchmark。这个测试很有意思,它不是考大数据记忆,而是考 Few-shot Learning(少样本学习)甚至是元学习。它的创始人认为,那种靠背数据的不是智能,真正的智能是看一两个例子就能迅速提取出 Pattern(模式)。

之前大家在这个榜单上都是个位数或者百分之十几,Gemini 3 一下子达到了百分之三十几,这是一个质的飞跃。我认为这归功于它的 Multimodal Reasoning(多模态推理)。

以前的 Chain of Thoughts(思维链),模型是在那里自言自语,是纯语言维度的单模态推进。但 Gemini 3 是 Model Native 的,它把视觉、代码、语言的数据全部 Mesh up together(混合在一起)做预训练。所以它在推理的时候,可能是一边看着屏幕上的图像,一边在语言层面做逻辑推演。这种跨模态的化学反应,打开了很多新机会的大门。

陈羽北:加州大学戴维斯分校助理教授、Aizip 联合创始人

陈羽北:我这两天太忙还没自己跑,但我收集了我们团队不同小组的一手反馈,这里面有一些很有意思的 Negative Feedback(负面反馈)。

首先是 Vision 组的反馈。他们在做一些内部 Benchmark 测试时发现,Gemini 3 在 Real-world Visual Understanding(真实世界视觉理解)上性能反而下降了。这听起来很反直觉对吧?

具体来说,就是当涉及到安防摄像头、门铃这种真实场景,去分析用户行为、潜在风险事件的时候,它的表现不如上一代。他们去查了 Gemini 3 的技术报告,发现报告里真正涉及到 Real-world Visual Understanding 的 benchmark 只有一个,而且并没有覆盖这种复杂场景。

这其实暴露了一个行业通病:公榜 benchmark 和实际落地场景之间存在巨大的 Gap。 如果大家都为了刷榜去优化模型,那在实际产品中的性能可能会走偏。

另外,Coding 组的学生也跟我说,在做 Scientific Writing(科学写作)和辅助编程时,他们反而觉得 Gemini 2.5 更顺手。Gemini 3 虽然 Reasoning 的长度增加了 2 到 3 倍,但在处理需要反复多跳(Multi-hop)搜索、整合二十年财报这种极度复杂的任务时,似乎还是不如 OpenAI 的 GPT-5 Pro 稳定。当然,这可能是早期版本大家还没摸透 Prompt 的原因。

02 谷歌技术秘密:是 "Deep Thinking" 还是 " 超能力 "?

谷歌从落后到追平甚至反超,Gemini 项目负责人曾透露秘密在于 " 改进了预训练和后训练 "。这句看似官方的回答背后,隐藏着谷歌怎样的技术路线图?是算法本身的胜利,还是堆算力的暴力美学?

谷歌 DeepMind 首席科学家 Oriol Vinyals X 平台推文

陈茜:谷歌这次不仅是追赶,简直是超越。Gemini 项目负责人在发布会中提到了新版本 " 改进了预训练和后训练 ",这是否意味着 Scaling Law 并没有 " 撞墙 "?谷歌的秘密武器到底是什么?

田渊栋:说实话," 改进了预训练和后训练 " 这句话基本等于废话(笑)。因为做模型本来就是个系统工程,数据更好、架构微调、训练稳定性增强,每一块都好一点,最后结果肯定强。

但我更关注的是,如果预训练做得足够好,模型本身变得非常 " 聪明 ",那它在后训练阶段就会表现得像个天才学生,给几个样本就通了,不需要花大力气去教。现在看来 Gemini 3 的基座能力确实很强。

关于它是不是用了什么秘密武器,我听到一些传言,说 Google 终于把之前训练流程里的一些 Bug 给修掉了。当然这是传言啊,无法证实。不过对于 Google 这种量级的公司,只要工程上不犯错,把所有细节拉满,Scaling Law 自然会发挥作用。

Gavin Wang:前 Meta AI 工程师,负责 Llama 3 后训练及多模态推理

Gavin Wang:我昨天试着跟 Gemini 3 聊了一下,问它 " 你为什么这么厉害?"(笑)。它跟我剖析了一下,提到了一个概念叫 Tree of Thoughts(思维树)。

以前我们做 CoT ( Chain of Thoughts ) 是线性的,像链表一样一步步推。但 Gemini 3 似乎在模型内部采用了树状搜索,并且配合了一个 Self-rewarding(自我奖励)的机制。也就是说,它在内部会同时跑多条思路,然后自己有一个打分机制,觉得哪条路不 Make sense 就 Drop 掉,哪条路有前途就继续 Adapt。

这其实是 Engineering Wrapper(工程封装)和 Model Science(模型科学)的深度结合。以前我们要在外面写 Prompt 搞这些,现在谷歌把它做进了模型内部环境里。这不仅是 Scaling Law 在垂直方向的堆料,更是在水平方向上引入了 MoE 和 Search 的机制。这让我想起三年前的 GPT 时刻,技术上非常 Impressive。

Nathan Wang:我补充一个细节,我在查阅 Gemini 开发者 API 文档时,发现里面藏了一个彩蛋。它在一行注释里写道:"Context Engineering is a way to go.(语境工程是大势所趋)"

这句话让我思考了很久。以前我们说 Prompt Engineering,现在谷歌提 Context Engineering。我自己在使用时的体感是,比如我想写一条能引起 " 病毒式传播 " 的推文,我会先让 AI 去搜索 " 怎么写一条火爆的推文 ",让它先把方法论总结出来,作为 Context,然后再把我的内容填进去生成。

谷歌似乎把这个过程自动化了。它在模型生成答案之前,可能已经在后台自动抓取了大量相关的 Context,构建了一个极其丰富的思维链环境,然后再生成结果。这可能就是为什么它用起来觉得 " 懂你 " 的原因。它不仅仅是在回答,而是在一个 engineered environment(工程环境)里思考。

陈羽北:除了算法层面,我想提一个更底层的经济学视角。我的朋友 Brian Cheng 提过一个观点,我认为非常切中要害:谷歌之所以能如此坚决、彻底地执行 Scaling Law,是因为它拥有无法比拟的硬件优势—— TPU。

大家想一下,如果其他公司要训练大模型,必须买 NVIDIA 的显卡。NVIDIA 的硬件利润率高达 70% 以上。但谷歌不同,它是完全的软硬件整合。它用自己的 TPU,没有中间商赚差价。这让它的 Unit Economy(单位经济模型) 极其优秀。在同样的预算下,谷歌可以训练更大的模型、跑更多的数据、做更昂贵的多模态实验。

所以,只要 Scaling Law 还需要堆算力,谷歌这种硬件上的不对称优势就会对 OpenAI 和 Anthropic 形成巨大的挤压。除非 NVIDIA 降价,或者其他家也造出自己的芯片,否则这个护城河非常深。

03 开发者生态:Coding 之争结束了吗?

随着 Gemini 3 和 AntiGravity 的发布,以及其在 SWE-bench 等代码榜单上的屠榜,社交媒体上出现了 "Coding 之争已结束 " 的言论。谷歌是否正在利用其庞大的生态系统(Chrome, Android, Cloud)构建一条让 Cursor 等创业公司无法逾越的护城河?

陈茜:很多人说 Coding 之争已经结束了,Gemini 3 配合谷歌全家桶将横扫一切。这对 Cursor 等等这样的创业公司意味着什么?

Gavin Wang:我觉得谷歌这次确实有点 " 降维打击 " 的意思。AntiGravity 直接对标 Codex 加 Cursor,而且它因为拥有 Chrome 的底层权限,可以做到视觉与代码的完美对齐。

现在的体验是,AI 一边看着网页(视觉),一边帮你改代码,这种 Multimodal Native(多模态原生)的体验是 Next Level 的。相比之下,Figma 或 Cursor 目前还更像是一个 Chatbot。如果谷歌把 Chrome、Cloud、IDE 全部打通,对于创业公司来说,这确实很难受。

但这也催生了新的机会。比如 Palantir 提出的 Forward Deployed Engineer(前置部署工程师)概念。未来的工程师可能不再只是写代码,而是打通从商业化、产品定义(PM)到前后端开发的全链路。既然基模能力水涨船高,我们应该造一艘 " 小船 ",站在巨人的肩膀上创造价值,而不是去卷基模已经能做的事。

就像 Nathan 说的,Web Coding 这种简单的前端工作可能会被谷歌包圆,但这就逼着我们去寻找新的 Business Model 和 Product Shape(产品形态)。

Nathan Wang:资深 AI 开发者、硅谷 101 特约研究员

Nathan Wang:我觉得说 " 结束 " 还言之过早。AntiGravity 确实强,但我发现在实际使用中,它在处理后端(Backend)部署、复杂的系统架构时,依然很容易卡住。

比如我在用 Browser use 上传文件做测试时,它经常会停在那儿,需要我去干预。它目前更像是一个极其强大的前端生成器。而且,对于很多企业来说,把代码全部交给谷歌的生态系统,在数据隐私上也是有顾虑的。Cursor 这种独立厂商依然有它的生存空间,特别是它在灵活性和特定语言优化上。

田渊栋:对,我也觉得网上的 Demo 有点误导性。现在的 Demo 很多是一键生成酷炫的前端页面,大家看的是 " 漂亮程度 " 和 " 完整性 "。

但真正写 Code 的人,关注的是 Instruction Following(指令遵循)。比如我要把这段代码的逻辑稍微改一点点,或者我要处理一个非常琐碎的 Corner Case(边缘情况),模型能不能听懂?能不能改对?

我试过让它写一个 3D 第一人称射击游戏。它确实写出来了,画面也不错,但我一跑发现——方向键是反的。这种小 Bug 看起来不碍事,但在大规模工程里就是灾难。所以对于专业程序员来说,它目前还是一个能够降低门槛的辅助工具,而不是替代者。

04 后 LLM 时代:AI 是否 " 绑架 " 了美国 GDP?

尽管谷歌证明了 Scaling Law 依然有力,但硅谷的目光已经投向了更远的地方。近期,一批被称为 "NeoLab" 的非主流 AI 实验室(如 Reflection AI、Periodic Labs)受到风投追捧,融资额都非常高。在 LLM 之外,AI 的下一个范式转移将在哪里发生?

来源:The Information

陈茜:除了 Scaling Law,大家看到什么非主流的、值得关注的 AI 发展趋势?特别是像 NeoLab 们所关注的那些领域。

田渊栋:我一直以来的观点是:Scaling Law 是一个很有用的工程规律,但如果不去探索本质,我们总有一天会面临资源枯竭。难道我们真的要把整个地球变成一块巨大的显卡吗?如果算力需求是指数增长,而地球资源是有限的,这条路终究走不通。

所以我一直坚持做 AI 的可解释性(Interpretability)和 顿悟(Grokking)机制的研究。我相信一个如此高效的神经网络,背后一定有一个优美的数学内核。如果我们能从 First Principle(第一性原理)出发,理解它是如何产生涌现(Emergence)的,也许有一天我们会发现,根本不需要梯度下降(Gradient Descent),就能找到更好的算法。

另外,我也在用 AI 加速我的研究。比如最近是 ICML 的 Rebuttal(同行评审中的反驳 / 辩护过程)期间,我有个新想法,直接丢给 Cursor,3 分钟代码写完,图画出来,我马上就能验证这个 Idea 行不行。这种效率提升成百上千倍,这本身也会加速我们对 AI 本质的探索。

陈羽北:我非常同意渊栋学长的观点。如果 Scaling Law 是唯一的定律,那人类的未来太悲观了。我们既没有那么多电,以后数据也都交给 AI 了,那人类除了当宠物还有什么价值?

我观察到自然界有一个悖论,这可能是一个突破口:越高级的智能,其实越依赖学习,但所需的数据却越少。

你看人类小孩,在 13 岁之前,他接触到的所有 Token(语言数据),加起来可能不到 10Billion(100 亿)。相比现在大模型动不动几 Trillion 的数据训练量,人类的数据效率是极高的。但人类的大脑结构非常复杂(上千亿神经元)。所以,大模型未必大在数据,可能应该大在架构。

我觉得我们现在的 LLM 更像是在 Distill our existing civilization(蒸馏我们现有的文明),把它压缩得更好一点。但我希望未来的 AI,比如 Robotics(机器人)或者 World Model(世界模型),能够像生物一样去探索未知,Invent a new civilization(发明新的文明)。这需要我们这些 Researcher 去做一些看起来 "Weird"(怪异)或者 "Crazy" 的研究,去寻找 Scaling Law 之外的第二条曲线。

Gavin Wang:顺着羽北的话说,我觉得 World Model(世界模型)绝对是下一个战场。

现在的 LLM 还是纯语言维度的。但真正的世界模型,是要能理解物理规律的。目前主要有三条路线:一是像 Genie 3 这种 Video-based 的,虽然是 2D 视频但模拟 3D 世界;二是 Mesh/Physics-based 的,带有物理碰撞体积;三是像李飞飞老师团队做的 Gaussian Splatting(高斯泼溅),用点云来表征空间。

另外,我特别想呼吁大家关注 Open Source(开源)和 Small Language Models(端侧小模型)。

现在的智能其实被 " 囚禁 " 在 GPU Data Center 里。普通人要用智能,得付费买 API,这就像我们还要给空气付费一样。这其实是一种 Digital Centralization(数字集权)。

如果端侧小模型能发展起来,让每个人在自己的手机、电脑上就能跑得动高性能的 AI,不需要联网,不需要付昂贵的订阅费,这才是真正的 AI for Everyone。这也需要我们在模型架构上做很多优化,而不仅仅是堆显卡。

05 泡沫还是奇点?

Gemini 3 的发布,某种程度上是 Google 对 "AI 泡沫论 " 的一次强力回击。它证明了只要有足够的算力、数据和工程优化,Scaling Law 仍有巨大的红利可吃。

然而,今天直播中很多嘉宾们的观点,也都在指出单纯的 Scaling 并不是通向 AGI 的唯一路径。

今天我们的直播,其实我们不仅想聊聊 Gemini 3 发布下的谷歌 " 技术秀肌肉 ",还有来自硅谷一线的、冷静而深刻的思考。Gemini 3 暂时领先了现在的战役,这对谷歌来说是重要的一个里程碑;但 AI 的大战役,才刚刚开始。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 google 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论