字母AI 3小时前
谷歌I/O大会的10个新东西,用Gemini接管一切
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一年一度的谷歌 I/O 大会,重磅来袭。

谷歌官方这次一口气发布了 24 篇 I/O 相关公告,信息量很大,但主线并不复杂:底层模型更新到 Gemini 3.5,并推出面向视频和多模态创作的 Gemini Omni;用户入口上,Gemini App 开始往个人助理方向走;搜索开始加入更多 AI 模式和智能体能力;购物、办公、开发工具也都被重新接入 Gemini;硬件上,谷歌还展示了搭载 Gemini 的智能眼镜。

重点在于,今年不仅有模型能力的提升,谷歌还把 Gemini 塞到了各种地方。

从搜索框,到购物车,再到智能眼镜 …… 谷歌正在用 AI 接管一切。

我们整理了这次大会上最值得关注的 10 个新东西,一起来看:

01

Gemini 3.5:迄今为最强的编码、智能体模型

先来看备受关注的底层模型。

这次谷歌发布了 Gemini 3.5 系列,首发的是 Gemini 3.5 Flash,3.5 Pro 还在内部使用,计划下个月推出。

虽然 3.5 Flash 名字里还是 Flash,但它的定位已经不只是 " 快 " 和 " 便宜 ",可以说,它是谷歌这次所有 Agent 产品的发动机。

3.5 Flash 面向的是编码、智能体任务和真实工作流,已经进入 Gemini App、Google Search 的 AI Mode、Google Antigravity、Gemini API、Android Studio,以及企业平台。

跑分方面,Gemini 3.5 Flash 在编码能力、Agent 能力、工具调用能力上比 3.1 Pro 强了不少,但在 Humanity's Last Exam 和 ARC-AGI-2 上还是有所不足。

输出速度上,比其它前沿模型快 4 倍,在人工智能分析指数中位列右上象限——意思是又快又强。

定价上,3.5 Flash 输入 $1.50/ 百万 token,输出 $9.00/ 百万 token,比 3 Flash 贵了 3 倍,比 3.1 Pro 便宜 40%。

官方给了几个典型场景:比如开发应用、维护代码库、准备财务文件、整理非结构化资产、把旧代码库迁移到 Next.js,甚至让两个 agent 合作,把 AlphaZero 论文读完,再做出一个可玩的游戏。

在 Gemini 3 强大的多模态基础之上,3.5 Flash 可以生成更丰富、更具交互性的 Web 用户界面和图形。

它可以在不到一分钟里生成 6 个不同的支付页面,也可以一次做出 64 个分形图案变体;用户只要用文字描述一个想法,它就能生成可互动的网页组件。

更复杂一点,它还能把论文、课程视频变成互动式学习卡片和可视化页面,甚至在 Google 搜索里,根据用户的问题现场生成图表、模拟器和沉浸式解释界面。

以前大家对 Flash 类模型的印象是:便宜、快、适合轻量任务。但现在谷歌要表达的是,未来的 Agent 不可能每一步都调用最贵、最慢的大模型。真正能规模化跑起来的 Agent,需要一个速度、成本和能力都比较平衡的模型。

这就是 Gemini 3.5 Flash 的位置。

02

Gemini Omni:谷歌版全模态生成模型

除了 Gemini 3.5,这次谷歌还发布了一个更偏创作的新模型:Gemini Omni。

谷歌对它的定位是:can create anything from any input(从任何输入,生成任何内容)。

当然,现在第一步还是视频。之后谷歌还计划支持图片、音频等更多输出形式。

首个上线的是 Gemini Omni Flash,已经向 Google AI Plus、Pro 和 Ultra 订阅用户开放,可以在 Gemini App 和 Google Flow 中使用;YouTube Shorts 和 YouTube Create App 也会免费接入。未来几周,谷歌还会把它通过 API 开放给开发者和企业客户。

Omni 不是一个单纯的文生视频模型。它可以把文字、图片、音频、视频一起作为输入,然后生成一段完整视频,并且支持对话式视频编辑。

官方还展示了一个连续修改的例子:先生成一个小提琴手演奏的视频,然后把小提琴手放进另一张图片里的环境,再把小提琴变成透明,最后把镜头角度改成从小提琴手肩膀后方看。整个过程是一轮一轮接着改,而不是每次推倒重来。

谷歌还特别强调,Omni 背后接的是 Gemini 的世界知识。它对重力、动能、流体这些物理效果有更好的理解,也可以把复杂概念做成解释视频。行动会产生后果,环境会对事件做出反应,叙事会按逻辑发展。

换句话说,谷歌想表达的是,AI 视频不是只能做炫酷短片,也可以变成一种知识表达工具。复杂概念、科学过程、教学内容,都可以被转成更直观的视频。

和 Seedance 2.0 一样,Omni 也能多种参考素材来生成视频,图片、视频、音频、音乐都可以成为输入。用户可以让它保留某张图里的角色,借用一段视频里的动作,再让画面跟随音乐节奏变化,最后生成一段新的完整视频。

官方还提到,用户可以从已有素材出发:用草图作为动作参考,把它变成真实影像;例如用视频里的鲸鱼游动动作,迁移到一种反光流体材料上;或者保留房间结构不变,只把植物变成半透明的发光植物,并让萤火虫和声音节奏互动。

简单点说,Omni 想让用户能够 " 把各种素材、风格、动作和声音,重新组织成一个新视频 "。这对创作者很重要。

不过,看社群反应,它用起来并没有 Seedance 2.0 出色 …… 但这只是 Flash 版本的一个开始,对吧?

安全方面,Omni 支持用户创建自己的数字分身,也就是用自己的声音和形象生成视频。但谷歌强调,其他涉及改音频、改语音的能力还在测试中,需要更谨慎地推出。所有 Omni 生成的视频都会带有不可见的 SynthID 数字水印,用户可以通过 Gemini 以及 Google 搜索来验证内容是否由 Gemini Omni 生成。

03

Gemini App:大更新

这次 Gemini App 也大改。

谷歌说,今年对 Gemini App 来说是 " 硕果累累的一年 "。去年 I/O 时 Gemini App 有 4 亿用户,现在已经有超过 9 亿月活,覆盖 230 多个国家和 70 多种语言。

这次 Gemini App 的更新主要有几个:

第一,接入 Gemini 3.5 Flash。

第二,推出新的设计语言 Neural Expressive。界面会更动态,有流体动画、更鲜明的颜色、新字体、触觉反馈。Gemini Live 也被直接整合到 Gemini,用户可以从打字自然切到语音对话。谷歌还说,Gemini 以后不只是给你一堵文字墙,而是会根据问题实时生成更适合的回答形式,比如图片、交互时间线、旁白视频、动态图形等。这个新设计从今天起在 Web、Android、iOS 全球推出。

第三,Gemini App 接入 Gemini Omni,可以直接生成和编辑视频。用户可以上传手机相册里的素材,用模板、提示词、背景替换、电影感变焦等方式做视频。甚至可以创建自己的数字分身。

第四,是 Daily Brief。它像一个早晨简报 Agent,你授权之后,它会在后台看你的 Gmail、Calendar,把紧急邮件、接下来的日程、需要跟进的事项整理成一个早间摘要。它不只是总结,还会按你的目标排序,并建议下一步。Daily Brief 从美国开始,面向 Google AI Plus、Pro、Ultra 用户推出。

第五,也是最重要的,是 Gemini Spark。

04

Gemini Spark:谷歌版 24 小时个人 Agent

Gemini Spark 是这次最值得单独介绍的产品之一。

谷歌给它的定位是 24/7 personal AI agent。也就是说,它可以在你授权下,持续帮你做事。

它运行在 Gemini 3.5 上,使用 Antigravity harness,并且深度连接 Gmail、Docs、Slides 等工具。而且因为它是云端 Agent,所以你关掉电脑、锁上手机,它也可以继续在后台工作。

谷歌举了几个例子。

比如你可以让它定期解析每月信用卡账单,找出新增订阅或者隐藏费用;或者教它检查孩子学校邮件,把重要日期提取出来,每天发一份简报给你和伴侣;再比如,你可以让它从邮件和聊天记录里的会议笔记中提炼信息,整理成 Google Docs,再起草一封项目启动邮件。

这是典型的 Agent 叙事:帮你跨应用完成一串动作。

这也是谷歌最有优势、也最敏感的地方:它手里有 Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用户愿意授权,Gemini 可以触达的个人上下文,将成为一个非常庞大的生态。

当然,谷歌也在强调权限和安全。Spark 需要用户选择是否开启、连接哪些 App;涉及花钱、发邮件等高风险动作时,会先询问用户。

这一功能本周先面向 trusted testers,下周计划作为 Beta 推给美国 Google AI Ultra 用户。

05

macOS 版 Gemini:开始进入桌面工作流

Gemini App 还有一个比较容易被忽略的更新:macOS 桌面版。

谷歌说,Gemini 的 macOS App 已经可以下载,接下来会把 Gemini Spark 带到桌面端,让它处理本地文件,并自动化桌面上的工作流。它还会加入新的语音能力:用户可以对着屏幕说一段并不完整、夹杂着停顿和口头禅的话,Gemini 能根据屏幕上下文,把它整理成更准确的文本,并直接放到光标所在位置。

这件事看起来小,但也值得注意,因为 Agent 最终不可能只在网页里工作。很多真实工作发生在本地:文件夹、桌面软件、浏览器、多窗口、多文档之间。谷歌把 Spark 带到 macOS,其实就是在往桌面 Agent 的方向走。

我们之前写过一篇文章,说 PC 才是 agent 时代的头号硬件,谷歌之前在 The Android Show 上发布的种种更适应真实工作流的软硬件产品,和这件事也是互通的。

06

Google Search:搜索框 25 年来最大改版

这次最有象征意义的产品,还是 Search。

谷歌说,AI Mode 上线一年后,月活已经超过 10 亿,查询量每个季度翻倍。现在,谷歌把 Gemini 3.5 Flash 作为 AI Mode 的默认模型,并宣布对搜索框进行 25 年来最大升级。

新的搜索框不再只是输入关键词的小框,变成了一个 AI 入口。

它会动态展开,让你用更自然的方式描述问题;它会根据意图给出 AI 建议,不只是传统自动补全;它支持多模态输入,可以用文本、图片、文件、视频,甚至 Chrome 标签页作为输入。

也就是说,搜索不再只是 " 给我十个链接 ",变成了 " 我有一个问题、一段材料、一张图、一个网页上下文,你帮我理解并继续往下走 "。

另外,AI Overview 也可以更自然地接入 AI Mode。用户可以直接对 AI Overview 继续追问,搜索会带着上下文进入对话。这个体验已经在桌面和移动端全球上线。

Search 这次还有一个更 Agent 化的能力:Search agents。

谷歌说,用户以后可以在 Search 里创建、定制和管理多个 AI agents。第一批是 information agents,信息型 Agent。它们可以 24 小时在后台监控你关心的信息,然后在合适的时候给你一份综合更新。

这和 Google Alerts 很像,但更智能。

Google Alerts 只能按关键词订阅。Search agents 订阅的是 " 你的意图 "。它不像爬虫那样只看某个词有没有出现,而是理解你到底要什么,然后跨网页、新闻、社交、购物、体育、金融等信息源监控变化。

information agents 今年夏天先给 Google AI Pro 和 Ultra 用户推出。

此外,Search 还在扩展 agentic booking,也就是帮你完成预订类任务。比如你要找一个周五晚上、能坐 6 个人、供应夜宵的私人 KTV 房间,Search 会综合价格和可用性,并给你直接完成预订的入口。部分品类,比如家政维修、美容、宠物护理,用户甚至可以让 Google 代为给商家打电话。这些能力今年夏天在美国面向所有用户推出。

另外,谷歌还把 Antigravity 和 Gemini 3.5 Flash 的编码能力带进了 Search。目标是让搜索结果不再只是文本、图片、表格,而是根据你的问题即时生成合适的交互界面。

比如你想理解天体物理,或者想看手表内部怎么运转,Search 可以实时组装交互视觉、表格、图表、模拟器。这些 generative UI 能力今年夏天会免费开放给所有 Search 用户。

更进一步,Search 还可以为持续性任务生成 mini apps。比如你在搬家、筹备婚礼、管理健康计划,不是一次搜索就结束,而是一个长期项目。Search 可以给你生成一个自定义 dashboard 或 tracker,以后你可以持续回来用。

这非常像一个新的产品形态:搜索结果不再是网页,变成了临时生成的小工具。

07

Universal Cart:谷歌想做 AI 购物车

购物也是这次大会的大更新之一。

谷歌发布了 Universal Cart,一个跨服务、跨商家的智能购物车。它可以出现在 Search、Gemini、YouTube、Gmail 里。用户在搜索商品、和 Gemini 聊天、看 YouTube、读 Gmail 的时候,都可以把商品加入同一个购物车。

但它不是普通的购物车。

商品一加入购物车,它就会在后台开始工作:找优惠、追踪价格下降、查看价格历史、提醒补货。它还会用推理能力提前发现问题,比如你在不同零售商那里买电脑配件,它会提醒你哪些零件不兼容,并推荐替代方案。

因为它基于 Google Wallet,还能理解你的支付方式权益、会员信息、商家优惠,帮你找到隐藏折扣或者积分机会。

结账时,Universal Commerce Protocol 会让用户用 Google Pay 快速完成购买,或者把商品转到商家网站继续下单。

谷歌提到,Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair,以及 Shopify 上的 Fenty、Steve Madden 等品牌会参与相关结账能力。Universal Cart 今年夏天会先在美国的 Search 和 Gemini App 推出,之后进入 YouTube 和 Gmail。

谷歌还提到 Agent Payments Protocol,AP2。它的目的是让 Agent 代表用户安全付款。用户可以给 Agent 设定严格边界,比如只能买哪些品牌、哪些产品、最多花多少钱。AP2 会在用户、商家、支付处理方之间创建可验证的记录,让 Agent 的购买行为有边界、有凭据、有追踪。谷歌说,AP2 会在未来几个月进入 Google 产品,首先从 Gemini Spark 开始。

不过 …… 购物也就算了,谁会想让 AI 帮你一键付款呢。

08

智能眼镜:Google Glass 的 AI 时代重启

硬件侧最值得关注的是智能眼镜。

以前 Google Glass 确实做得挺烂的,甚至能算是硅谷硬件史上 " 技术很酷,但产品没想明白 " 的典型案例。

这次和当年 Google Glass 最大的不同是产品逻辑换了。Google Glass 像是把手机通知、拍照、导航这些功能,硬塞到眼前,但这次的 Gemini 智能眼镜更像是:让 AI 随时看见你看到的东西、听见你听到的东西,然后帮你理解和处理。

也就是说,它不再只是 " 戴在脸上的小屏幕 ",变成了一个更自然的 AI 入口。

在今年的 I/O 大会上,谷歌分享了更多关于智能眼镜的信息:这种眼镜可以在不打断你的情况下,即时提供帮助。

智能眼镜分为两种:一种是音频眼镜,可以在你的耳朵里提供语音帮助;另一种是显示眼镜,可以在你需要的时候立即显示所需信息。这两种眼镜都能让你解放双手,专注于其他事情,只需开口询问,即可获得 Gemini 的帮助。

音频眼镜会先上市,今年秋天推出。

样子看起来,怎么说,挺日常的。

功能上,它可以通过 "Hey Google" 或者轻触镜腿唤起 Gemini。用户可以问它眼前看到的东西,比如路过一家餐厅,问它评价怎么样;看到一块云,问这是什么云;看到复杂停车标志,让它帮你解释。

它还支持导航,也可以接电话、发短信、总结错过的消息、播放音乐;可以拍照和视频,并用 Nano Banana 做图像编辑,比如拍完照直接说 " 给每个人戴上搞笑帽子 ";还能实时翻译语音和文字,翻译语音时甚至会尽量匹配说话人的语气和音高。眼镜也可以连接 Uber、Mondly 等手机应用,并同时支持 Android 和 iOS。

虽然不好说实际使用效果如何,但这次至少避开了 Google Glass 当年的几个坑:

不再把眼镜当成微型手机,核心不是通知和小屏幕,而是 Gemini 对现实世界的理解和任务执行;不再一上来押注重 AR,先推音频眼镜,降低硬件难度和社会接受门槛;不再忽视外观,找 Gentle Monster 和 Warby Parker,承认眼镜是时尚消费品,不是纯科技产品。

毕竟当初 Google Glass 长这样:

场景也更清楚了。导航、翻译、识别眼前事物、总结消息、拍照编辑、叫车点单,这些都更接近 " 我为什么要戴它 "。

09

Google Antigravity 2.0:开发者侧的 Agent 工作台

开发者侧,最重要的是 Google Antigravity 2.0。

谷歌把它称为 agent-first development platform。也就是说,它不是普通 IDE 插件,而是一个以 Agent 为中心的开发平台。

这次 I/O 大会发布了 Antigravity 2.0 桌面应用、Gemini API 里的 Managed Agents,以及 AI Studio 的原生 Android vibe coding。

过去 AI 编程工具的核心是 " 帮你补代码、写函数、解释报错 ",现在谷歌想做的是 " 从 prompt 到生产就绪 app",也就是你给一个目标,AI 就能规划、拆任务、调用工具、跑测试、修 bug、部署,并且可能让多个子 Agent 并行工作。

这和 Codex、Claude Code、Cursor 竞争的是同一条赛道。谷歌的优势在于它不只有模型,还有 Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完整生态。

10

Project Genie + Street View:世界模型开始连接真实街景

另一个偏前沿的产品是 Project Genie。

Genie 是 Google DeepMind 的通用世界模型,可以生成多样化、可交互的环境。谷歌说,它已经成为研究工具,可以让 Agent 在复杂虚拟环境中学习和推理,也帮助 Waymo(Alphabet 旗下的自动驾驶公司)模拟高真实度道路环境。

这次的新能力,是把 Genie 和 Google Street View 连接起来。

也就是说,Genie 的生成能力开始和 Google 近 20 年街景图像结合,让模型生成的环境可以锚定真实世界。谷歌说,这可以为 AI agents 或机器人提供虚拟环境,让它们在其中导航、互动、学习现实世界的复杂性。

机器人和自动驾驶需要大量真实世界数据,但现实世界测试昂贵、危险、慢。世界模型可以提供虚拟训练场;而 Street View 则是谷歌独有的数据资产。二者结合,意味着谷歌可以把真实街景变成可交互的模拟环境。

换句话说,Project Genie 是谷歌把 " 地图资产 " 变成 "AI 训练环境 " 的尝试。

11

总结

今年 Google I/O 不是一个单点发布会,而是一次生态铺开。

模型层,谷歌发布 Gemini 3.5 和 Gemini Omni。前者面向行动和 Agent,后者面向全模态生成和视频编辑。

产品层,Gemini 被塞进 Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。它不再只是一个 App,而是 Google 产品体系里的统一智能层。

商业层,谷歌开始把 Agent 落到真实任务上:帮你盯信息、订服务、管购物车、处理邮件、写文档、做 App、生成视频、甚至辅助科研。

这次大会的一个明显趋势是,谷歌正在把 Gemini 改造成 Google 生态的操作系统。

过去的 Google,是一个你主动使用的工具箱,你可以用它搜索、发邮件、写文档 …… 现在,谷歌想让 Gemini 站在这些工具之上,理解你的意图,调用这些工具,替你完成一串动作。

今年 I/O 的发布看起来特别多、特别散:搜索、购物、办公、视频、眼镜、开发、科研,几乎每条线都在讲 AI,它们指向的其实是同一件事:

谷歌想要证明,自己仍然拥有把 AI 变成日常入口的最大生态。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论