谷歌I/O大会的10个新东西，用Gemini接管一切

一年一度的谷歌 I/O 大会，重磅来袭。

谷歌官方这次一口气发布了 24 篇 I/O 相关公告，信息量很大，但主线并不复杂：底层模型更新到 Gemini 3.5，并推出面向视频和多模态创作的 Gemini Omni；用户入口上，Gemini App 开始往个人助理方向走；搜索开始加入更多 AI 模式和智能体能力；购物、办公、开发工具也都被重新接入 Gemini；硬件上，谷歌还展示了搭载 Gemini 的智能眼镜。

重点在于，今年不仅有模型能力的提升，谷歌还把 Gemini 塞到了各种地方。

从搜索框，到购物车，再到智能眼镜 …… 谷歌正在用 AI 接管一切。

我们整理了这次大会上最值得关注的 10 个新东西，一起来看：

Gemini 3.5：迄今为最强的编码、智能体模型

先来看备受关注的底层模型。

这次谷歌发布了 Gemini 3.5 系列，首发的是 Gemini 3.5 Flash，3.5 Pro 还在内部使用，计划下个月推出。

虽然 3.5 Flash 名字里还是 Flash，但它的定位已经不只是 " 快 " 和 " 便宜 "，可以说，它是谷歌这次所有 Agent 产品的发动机。

3.5 Flash 面向的是编码、智能体任务和真实工作流，已经进入 Gemini App、Google Search 的 AI Mode、Google Antigravity、Gemini API、Android Studio，以及企业平台。

跑分方面，Gemini 3.5 Flash 在编码能力、Agent 能力、工具调用能力上比 3.1 Pro 强了不少，但在 Humanity's Last Exam 和 ARC-AGI-2 上还是有所不足。

输出速度上，比其它前沿模型快 4 倍，在人工智能分析指数中位列右上象限——意思是又快又强。

定价上，3.5 Flash 输入 $1.50/ 百万 token，输出 $9.00/ 百万 token，比 3 Flash 贵了 3 倍，比 3.1 Pro 便宜 40%。

官方给了几个典型场景：比如开发应用、维护代码库、准备财务文件、整理非结构化资产、把旧代码库迁移到 Next.js，甚至让两个 agent 合作，把 AlphaZero 论文读完，再做出一个可玩的游戏。

在 Gemini 3 强大的多模态基础之上，3.5 Flash 可以生成更丰富、更具交互性的 Web 用户界面和图形。

它可以在不到一分钟里生成 6 个不同的支付页面，也可以一次做出 64 个分形图案变体；用户只要用文字描述一个想法，它就能生成可互动的网页组件。

更复杂一点，它还能把论文、课程视频变成互动式学习卡片和可视化页面，甚至在 Google 搜索里，根据用户的问题现场生成图表、模拟器和沉浸式解释界面。

以前大家对 Flash 类模型的印象是：便宜、快、适合轻量任务。但现在谷歌要表达的是，未来的 Agent 不可能每一步都调用最贵、最慢的大模型。真正能规模化跑起来的 Agent，需要一个速度、成本和能力都比较平衡的模型。

这就是 Gemini 3.5 Flash 的位置。

Gemini Omni：谷歌版全模态生成模型

除了 Gemini 3.5，这次谷歌还发布了一个更偏创作的新模型：Gemini Omni。

谷歌对它的定位是：can create anything from any input（从任何输入，生成任何内容）。

当然，现在第一步还是视频。之后谷歌还计划支持图片、音频等更多输出形式。

首个上线的是 Gemini Omni Flash，已经向 Google AI Plus、Pro 和 Ultra 订阅用户开放，可以在 Gemini App 和 Google Flow 中使用；YouTube Shorts 和 YouTube Create App 也会免费接入。未来几周，谷歌还会把它通过 API 开放给开发者和企业客户。

Omni 不是一个单纯的文生视频模型。它可以把文字、图片、音频、视频一起作为输入，然后生成一段完整视频，并且支持对话式视频编辑。

官方还展示了一个连续修改的例子：先生成一个小提琴手演奏的视频，然后把小提琴手放进另一张图片里的环境，再把小提琴变成透明，最后把镜头角度改成从小提琴手肩膀后方看。整个过程是一轮一轮接着改，而不是每次推倒重来。

谷歌还特别强调，Omni 背后接的是 Gemini 的世界知识。它对重力、动能、流体这些物理效果有更好的理解，也可以把复杂概念做成解释视频。行动会产生后果，环境会对事件做出反应，叙事会按逻辑发展。

换句话说，谷歌想表达的是，AI 视频不是只能做炫酷短片，也可以变成一种知识表达工具。复杂概念、科学过程、教学内容，都可以被转成更直观的视频。

和 Seedance 2.0 一样，Omni 也能多种参考素材来生成视频，图片、视频、音频、音乐都可以成为输入。用户可以让它保留某张图里的角色，借用一段视频里的动作，再让画面跟随音乐节奏变化，最后生成一段新的完整视频。

官方还提到，用户可以从已有素材出发：用草图作为动作参考，把它变成真实影像；例如用视频里的鲸鱼游动动作，迁移到一种反光流体材料上；或者保留房间结构不变，只把植物变成半透明的发光植物，并让萤火虫和声音节奏互动。

简单点说，Omni 想让用户能够 " 把各种素材、风格、动作和声音，重新组织成一个新视频 "。这对创作者很重要。

不过，看社群反应，它用起来并没有 Seedance 2.0 出色 …… 但这只是 Flash 版本的一个开始，对吧？

安全方面，Omni 支持用户创建自己的数字分身，也就是用自己的声音和形象生成视频。但谷歌强调，其他涉及改音频、改语音的能力还在测试中，需要更谨慎地推出。所有 Omni 生成的视频都会带有不可见的 SynthID 数字水印，用户可以通过 Gemini 以及 Google 搜索来验证内容是否由 Gemini Omni 生成。

Gemini App：大更新

这次 Gemini App 也大改。

谷歌说，今年对 Gemini App 来说是 " 硕果累累的一年 "。去年 I/O 时 Gemini App 有 4 亿用户，现在已经有超过 9 亿月活，覆盖 230 多个国家和 70 多种语言。

这次 Gemini App 的更新主要有几个：

第一，接入 Gemini 3.5 Flash。

第二，推出新的设计语言 Neural Expressive。界面会更动态，有流体动画、更鲜明的颜色、新字体、触觉反馈。Gemini Live 也被直接整合到 Gemini，用户可以从打字自然切到语音对话。谷歌还说，Gemini 以后不只是给你一堵文字墙，而是会根据问题实时生成更适合的回答形式，比如图片、交互时间线、旁白视频、动态图形等。这个新设计从今天起在 Web、Android、iOS 全球推出。

第三，Gemini App 接入 Gemini Omni，可以直接生成和编辑视频。用户可以上传手机相册里的素材，用模板、提示词、背景替换、电影感变焦等方式做视频。甚至可以创建自己的数字分身。

第四，是 Daily Brief。它像一个早晨简报 Agent，你授权之后，它会在后台看你的 Gmail、Calendar，把紧急邮件、接下来的日程、需要跟进的事项整理成一个早间摘要。它不只是总结，还会按你的目标排序，并建议下一步。Daily Brief 从美国开始，面向 Google AI Plus、Pro、Ultra 用户推出。

第五，也是最重要的，是 Gemini Spark。

Gemini Spark：谷歌版 24 小时个人 Agent

Gemini Spark 是这次最值得单独介绍的产品之一。

谷歌给它的定位是 24/7 personal AI agent。也就是说，它可以在你授权下，持续帮你做事。

它运行在 Gemini 3.5 上，使用 Antigravity harness，并且深度连接 Gmail、Docs、Slides 等工具。而且因为它是云端 Agent，所以你关掉电脑、锁上手机，它也可以继续在后台工作。

谷歌举了几个例子。

比如你可以让它定期解析每月信用卡账单，找出新增订阅或者隐藏费用；或者教它检查孩子学校邮件，把重要日期提取出来，每天发一份简报给你和伴侣；再比如，你可以让它从邮件和聊天记录里的会议笔记中提炼信息，整理成 Google Docs，再起草一封项目启动邮件。

这是典型的 Agent 叙事：帮你跨应用完成一串动作。

这也是谷歌最有优势、也最敏感的地方：它手里有 Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用户愿意授权，Gemini 可以触达的个人上下文，将成为一个非常庞大的生态。

当然，谷歌也在强调权限和安全。Spark 需要用户选择是否开启、连接哪些 App；涉及花钱、发邮件等高风险动作时，会先询问用户。

这一功能本周先面向 trusted testers，下周计划作为 Beta 推给美国 Google AI Ultra 用户。

macOS 版 Gemini：开始进入桌面工作流

Gemini App 还有一个比较容易被忽略的更新：macOS 桌面版。

谷歌说，Gemini 的 macOS App 已经可以下载，接下来会把 Gemini Spark 带到桌面端，让它处理本地文件，并自动化桌面上的工作流。它还会加入新的语音能力：用户可以对着屏幕说一段并不完整、夹杂着停顿和口头禅的话，Gemini 能根据屏幕上下文，把它整理成更准确的文本，并直接放到光标所在位置。

这件事看起来小，但也值得注意，因为 Agent 最终不可能只在网页里工作。很多真实工作发生在本地：文件夹、桌面软件、浏览器、多窗口、多文档之间。谷歌把 Spark 带到 macOS，其实就是在往桌面 Agent 的方向走。

我们之前写过一篇文章，说 PC 才是 agent 时代的头号硬件，谷歌之前在 The Android Show 上发布的种种更适应真实工作流的软硬件产品，和这件事也是互通的。

Google Search：搜索框 25 年来最大改版

这次最有象征意义的产品，还是 Search。

谷歌说，AI Mode 上线一年后，月活已经超过 10 亿，查询量每个季度翻倍。现在，谷歌把 Gemini 3.5 Flash 作为 AI Mode 的默认模型，并宣布对搜索框进行 25 年来最大升级。

新的搜索框不再只是输入关键词的小框，变成了一个 AI 入口。

它会动态展开，让你用更自然的方式描述问题；它会根据意图给出 AI 建议，不只是传统自动补全；它支持多模态输入，可以用文本、图片、文件、视频，甚至 Chrome 标签页作为输入。

也就是说，搜索不再只是 " 给我十个链接 "，变成了 " 我有一个问题、一段材料、一张图、一个网页上下文，你帮我理解并继续往下走 "。

另外，AI Overview 也可以更自然地接入 AI Mode。用户可以直接对 AI Overview 继续追问，搜索会带着上下文进入对话。这个体验已经在桌面和移动端全球上线。

Search 这次还有一个更 Agent 化的能力：Search agents。

谷歌说，用户以后可以在 Search 里创建、定制和管理多个 AI agents。第一批是 information agents，信息型 Agent。它们可以 24 小时在后台监控你关心的信息，然后在合适的时候给你一份综合更新。

这和 Google Alerts 很像，但更智能。

Google Alerts 只能按关键词订阅。Search agents 订阅的是 " 你的意图 "。它不像爬虫那样只看某个词有没有出现，而是理解你到底要什么，然后跨网页、新闻、社交、购物、体育、金融等信息源监控变化。

information agents 今年夏天先给 Google AI Pro 和 Ultra 用户推出。

此外，Search 还在扩展 agentic booking，也就是帮你完成预订类任务。比如你要找一个周五晚上、能坐 6 个人、供应夜宵的私人 KTV 房间，Search 会综合价格和可用性，并给你直接完成预订的入口。部分品类，比如家政维修、美容、宠物护理，用户甚至可以让 Google 代为给商家打电话。这些能力今年夏天在美国面向所有用户推出。

另外，谷歌还把 Antigravity 和 Gemini 3.5 Flash 的编码能力带进了 Search。目标是让搜索结果不再只是文本、图片、表格，而是根据你的问题即时生成合适的交互界面。

比如你想理解天体物理，或者想看手表内部怎么运转，Search 可以实时组装交互视觉、表格、图表、模拟器。这些 generative UI 能力今年夏天会免费开放给所有 Search 用户。

更进一步，Search 还可以为持续性任务生成 mini apps。比如你在搬家、筹备婚礼、管理健康计划，不是一次搜索就结束，而是一个长期项目。Search 可以给你生成一个自定义 dashboard 或 tracker，以后你可以持续回来用。

这非常像一个新的产品形态：搜索结果不再是网页，变成了临时生成的小工具。

Universal Cart：谷歌想做 AI 购物车

购物也是这次大会的大更新之一。

谷歌发布了 Universal Cart，一个跨服务、跨商家的智能购物车。它可以出现在 Search、Gemini、YouTube、Gmail 里。用户在搜索商品、和 Gemini 聊天、看 YouTube、读 Gmail 的时候，都可以把商品加入同一个购物车。

但它不是普通的购物车。

商品一加入购物车，它就会在后台开始工作：找优惠、追踪价格下降、查看价格历史、提醒补货。它还会用推理能力提前发现问题，比如你在不同零售商那里买电脑配件，它会提醒你哪些零件不兼容，并推荐替代方案。

因为它基于 Google Wallet，还能理解你的支付方式权益、会员信息、商家优惠，帮你找到隐藏折扣或者积分机会。

结账时，Universal Commerce Protocol 会让用户用 Google Pay 快速完成购买，或者把商品转到商家网站继续下单。

谷歌提到，Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair，以及 Shopify 上的 Fenty、Steve Madden 等品牌会参与相关结账能力。Universal Cart 今年夏天会先在美国的 Search 和 Gemini App 推出，之后进入 YouTube 和 Gmail。

谷歌还提到 Agent Payments Protocol，AP2。它的目的是让 Agent 代表用户安全付款。用户可以给 Agent 设定严格边界，比如只能买哪些品牌、哪些产品、最多花多少钱。AP2 会在用户、商家、支付处理方之间创建可验证的记录，让 Agent 的购买行为有边界、有凭据、有追踪。谷歌说，AP2 会在未来几个月进入 Google 产品，首先从 Gemini Spark 开始。

不过 …… 购物也就算了，谁会想让 AI 帮你一键付款呢。

智能眼镜：Google Glass 的 AI 时代重启

硬件侧最值得关注的是智能眼镜。

以前 Google Glass 确实做得挺烂的，甚至能算是硅谷硬件史上 " 技术很酷，但产品没想明白 " 的典型案例。

这次和当年 Google Glass 最大的不同是产品逻辑换了。Google Glass 像是把手机通知、拍照、导航这些功能，硬塞到眼前，但这次的 Gemini 智能眼镜更像是：让 AI 随时看见你看到的东西、听见你听到的东西，然后帮你理解和处理。

也就是说，它不再只是 " 戴在脸上的小屏幕 "，变成了一个更自然的 AI 入口。

在今年的 I/O 大会上，谷歌分享了更多关于智能眼镜的信息：这种眼镜可以在不打断你的情况下，即时提供帮助。

智能眼镜分为两种：一种是音频眼镜，可以在你的耳朵里提供语音帮助；另一种是显示眼镜，可以在你需要的时候立即显示所需信息。这两种眼镜都能让你解放双手，专注于其他事情，只需开口询问，即可获得 Gemini 的帮助。

音频眼镜会先上市，今年秋天推出。

样子看起来，怎么说，挺日常的。

功能上，它可以通过 "Hey Google" 或者轻触镜腿唤起 Gemini。用户可以问它眼前看到的东西，比如路过一家餐厅，问它评价怎么样；看到一块云，问这是什么云；看到复杂停车标志，让它帮你解释。

它还支持导航，也可以接电话、发短信、总结错过的消息、播放音乐；可以拍照和视频，并用 Nano Banana 做图像编辑，比如拍完照直接说 " 给每个人戴上搞笑帽子 "；还能实时翻译语音和文字，翻译语音时甚至会尽量匹配说话人的语气和音高。眼镜也可以连接 Uber、Mondly 等手机应用，并同时支持 Android 和 iOS。

虽然不好说实际使用效果如何，但这次至少避开了 Google Glass 当年的几个坑：

不再把眼镜当成微型手机，核心不是通知和小屏幕，而是 Gemini 对现实世界的理解和任务执行；不再一上来押注重 AR，先推音频眼镜，降低硬件难度和社会接受门槛；不再忽视外观，找 Gentle Monster 和 Warby Parker，承认眼镜是时尚消费品，不是纯科技产品。

毕竟当初 Google Glass 长这样：

场景也更清楚了。导航、翻译、识别眼前事物、总结消息、拍照编辑、叫车点单，这些都更接近 " 我为什么要戴它 "。

Google Antigravity 2.0：开发者侧的 Agent 工作台

开发者侧，最重要的是 Google Antigravity 2.0。

谷歌把它称为 agent-first development platform。也就是说，它不是普通 IDE 插件，而是一个以 Agent 为中心的开发平台。

这次 I/O 大会发布了 Antigravity 2.0 桌面应用、Gemini API 里的 Managed Agents，以及 AI Studio 的原生 Android vibe coding。

过去 AI 编程工具的核心是 " 帮你补代码、写函数、解释报错 "，现在谷歌想做的是 " 从 prompt 到生产就绪 app"，也就是你给一个目标，AI 就能规划、拆任务、调用工具、跑测试、修 bug、部署，并且可能让多个子 Agent 并行工作。

这和 Codex、Claude Code、Cursor 竞争的是同一条赛道。谷歌的优势在于它不只有模型，还有 Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完整生态。

Project Genie + Street View：世界模型开始连接真实街景

另一个偏前沿的产品是 Project Genie。

Genie 是 Google DeepMind 的通用世界模型，可以生成多样化、可交互的环境。谷歌说，它已经成为研究工具，可以让 Agent 在复杂虚拟环境中学习和推理，也帮助 Waymo（Alphabet 旗下的自动驾驶公司）模拟高真实度道路环境。

这次的新能力，是把 Genie 和 Google Street View 连接起来。

也就是说，Genie 的生成能力开始和 Google 近 20 年街景图像结合，让模型生成的环境可以锚定真实世界。谷歌说，这可以为 AI agents 或机器人提供虚拟环境，让它们在其中导航、互动、学习现实世界的复杂性。

机器人和自动驾驶需要大量真实世界数据，但现实世界测试昂贵、危险、慢。世界模型可以提供虚拟训练场；而 Street View 则是谷歌独有的数据资产。二者结合，意味着谷歌可以把真实街景变成可交互的模拟环境。

换句话说，Project Genie 是谷歌把 " 地图资产 " 变成 "AI 训练环境 " 的尝试。

总结

今年 Google I/O 不是一个单点发布会，而是一次生态铺开。

模型层，谷歌发布 Gemini 3.5 和 Gemini Omni。前者面向行动和 Agent，后者面向全模态生成和视频编辑。

产品层，Gemini 被塞进 Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。它不再只是一个 App，而是 Google 产品体系里的统一智能层。

商业层，谷歌开始把 Agent 落到真实任务上：帮你盯信息、订服务、管购物车、处理邮件、写文档、做 App、生成视频、甚至辅助科研。

这次大会的一个明显趋势是，谷歌正在把 Gemini 改造成 Google 生态的操作系统。

过去的 Google，是一个你主动使用的工具箱，你可以用它搜索、发邮件、写文档 …… 现在，谷歌想让 Gemini 站在这些工具之上，理解你的意图，调用这些工具，替你完成一串动作。

今年 I/O 的发布看起来特别多、特别散：搜索、购物、办公、视频、眼镜、开发、科研，几乎每条线都在讲 AI，它们指向的其实是同一件事：

谷歌想要证明，自己仍然拥有把 AI 变成日常入口的最大生态。

宙世代

一起剪