智东西
作者 | 程茜 陈骏达
作者 | 心缘
智东西 5 月 21 日报道,今日凌晨,在一年一度的谷歌 I/O 开发者大会上,谷歌的 AI 大戏连番上演!
时长不到 2 小时的主题演讲上,谷歌 CEO 桑达尔 · 皮查伊携一众谷歌高管总共提到 95 次 "Gemini"、92 次 "AI"。
模型升级方面:Gemini 2.5 Pro 新支持原生音频输出、Project Mariner 的计算机使用功能、深度思考、高安全防护;视频模型 Veo 2 新增原生音频生成功能、Gemini 2.5 Flash 在推理、编程和长上下文等关键指标上升级。全新发布模型包括:扩散语言模型 Gemini Diffusion、视频生成模型 Veo 3、图像生成模型 Imagen 4。
谷歌还推出全新 Gemini 订阅计划:AI Pro 用户月付 19.99 美元(折合人民币约 144 元),可使用 Veo 2、Gemini 2.5 Pro 等入门级产品;AI Ultra 用户月付 249.99 美元(折合人民币约 1804 元),可拥有 Veo 3 的无限访问权限、使用 Gemini 2.5 Pro 深度思考模式等。
这都指向一个目标:构建通用 AI 助手。谷歌 DeepMind 创始人兼 CEO 戴密斯 · 哈萨比斯(Demis Hassabis)称,他们将 Gemini 打造成一个世界模型,是开发一种新型、更通用、更有用的 AI 助手的关键一步。
谷歌展示了其通用 AI 助手的最新研究原型。在自行车维修场景中,Gemini 可以帮助用户查询维修手册、滚动到特定页面、搜索视频教程、主动提供实用信息,还可以拨打电话,查询零件库存情况,并帮助用户下单。
其余更新包括颠覆用户搜索体验的 AI Mode:根据用户需求动态调整包含图表、店铺列表等的答案生成界面,在购物场景,AI Mode 可根据用户购买意图定制购物界面,提供虚拟试穿、追踪用户预期价位、代理结账功能,其还集成了视觉搜索,用户可以通过手机摄像头实时拍照搜索提问。AI Mode 现已经面向所有美国用户推出。
同时,谷歌此前三大研究项目获得重大进展:Project Starline 引入全新 3D 视频通讯体验、Project Astra 能利用 Gemini 和摄像头来解决问题、Project Marina 支持多任务处理。
大会尾声,谷歌还现场演示了重量级安卓 XR 智能眼镜,并官宣与 XREAL 共同打造第二款安卓 XR 设备 Project Aura。
翻译能力是这款眼镜的亮点之一,不过测试时,可以明显感觉到工作人员减慢了语速,谷歌安卓 XR 智能眼镜仅正确翻译了对话中的前半部分,之后出现了无法识别的问题。
皮查伊透露,Gemini 应用目前已经拥有超过 4 亿月活用户,超过 700 万名开发者通过 Gemini API 进行开发。
谷歌今天放出的诸多 AI 大招,智东西带你一文看尽。
一、Gemini 系列模型屠榜,谷歌产品每月处理 token 数一年增长 50 倍
Gemini 时代,谷歌的模型和产品发布速度都比以往更快。上届 I/O 大会至今,谷歌已经宣布 10 余款模型重大突破、20 余款重大 AI 产品。
自第一代 Gemini 模型发布以来,Gemini 模型的 Elo 分数已提升 300 多分。编程方面,Gemini 2.5 Pro 成为编程平台 Cursor 上年度增长最快的模型,每分钟产出数十万行被采纳的代码。
在 LMArena 排行榜中,Gemini 系列模型包揽了每秒生成输出 token 数最高的前三名,并且模型价格也在下降。
全栈基础设施方面,谷歌第七代 TPU Ironwood 是首款专为大规模 AI 思考和推理工作负载而设计的 TPU,其性能是上一代的 10 倍,每个 Pod 的计算能力达到 42.5 exaFLOPS。
皮查伊提到谷歌大模型相关的几组数据:
去年同期谷歌每月通过产品和 API 处理的 token 数量为 9.7 万亿,目前其每月处理的 token 数达到 480 万亿,一年内增长了约 50 倍;
超过 700 万名开发者通过 Gemini API 进行开发,涵盖谷歌 AI Studio 和 Vertex AI 两大平台,同比增长超过五倍,同时 Vertex AI 平台上的 Gemini 使用率较去年增长 40 倍;
Gemini 应用目前拥有超过 4 亿月活用户,在 Gemini 应用中使用 2.5 Pro 版本的用户使用量增长了 45%;
在搜索方面,AI 概览功能的每月用户超 15 亿。皮查伊认为 AI Mode 是搜索领域的下一个重大进展,我们正处在 AI 平台转型的新阶段。
皮查伊还提到,Gemini 已经通关精灵宝可梦,集齐 8 枚徽章获得冠军," 距离人工宝可梦智能更进一步 "。
二、Gemini 编程、语音、深度思考迎升级,DeepMind CEO 揭秘终极愿景
哈萨比斯提到,Gemini 2.5 Pro 是谷歌迄今为止最智能的模型,也是全球最强大的基础模型。两周前,谷歌发布了 Gemini 2.5 Pro 的预览版,开发者们用它实现了诸多创意:比如将草图转化为交互应用、模拟完整 3D 城市等。
新版的 Gemini 2.5 Pro 在 WebDev Arena 编程排行榜登顶。谷歌还将他们去年发布的 LearnLM(专为学习场景微调的模型)接入 Gemini 2.5 Pro 模型,这让后者在解题等学习场景的能力进一步提升。
今天谷歌推出了轻量级模型 Gemini 2.5 Flash 的升级版。这款模型在推理、编程和长上下文等关键指标上实现提升,在大模型竞技场的排名仅次于 Gemini 2.5 Pro。升级版模型将于 6 月初全面开放,Pro 版本随后跟进,目前开发者已经可以在 AI Studio 抢先体验。
Gemini 还引入了更多的功能。增强版安全防护的可抵御间接提示注入攻击;思维摘要功能将模型思考过程可视化,便于调试;Gemini 2.5 Pro 即将新增 " 思考预算 " 控件,开发者可控制模型思考的长度,从而平衡质量与成本。
Gemini 2.5 Pro 和 Gemini 2.5 Flash 的文本转语音功能支持多角色对话,能实现语气微妙变化、切换耳语模式、跨 24 种语言切换。
谷歌 Gemini 产品负责人 Tulsee Doshi 展示了 Gemini 2.5 Pro 的编程能力。现场,Gemini 2.5 Pro 仅参照一张草图就生成了完整的 3D 交互网页,用时 37 秒就在原网页代码上完成修改。
Gemini 2.5 Pro 现已在多款 AI IDE 平台(如 Cursor 等)中可用。谷歌昨日开启公测的编程助手 Jules 也接入了 Gemini 2.5 Pro,能独立处理 GitHub 代码库的复杂任务,将原本耗时数小时的工作缩短至分钟级。
谷歌 Jules 用户界面
在模型架构创新方面,谷歌将扩散模型技术应用于文本生成。全新的 Gemini Diffusion 实验模型(扩散语言模型)的生成速度比 Gemini 2.5 Flash 快 5 倍。这款模型不仅仅能按顺序从左到右生成内容,还可以生成过程中快速迭代解决方案,并在生成过程中进行错误纠正。
谷歌打造了 Gemini 2.5 的 " 深度思考(Deep Think)" 模式,运用类 AlphaGo 的并行推理技术。这一模式已经在美国数学奥林匹克 2025 测试和 Live Codebench 编程测试取得不错的效果,但由于需要额外安全评估,谷歌将先向可信测试者开放 API。
哈萨比斯称,谷歌未来的重点是将 Gemini 模型扩展为一个 " 世界模型 "。模型对物理世界的理解能力,不仅对视频、3D 生成至关重要,也是机器人技术突破的关键。为此,谷歌还专门微调了 Gemini Robotics 模型,能让机器人学习抓取物体、遵循指令等任务,并能够即时适应新任务。
谷歌的终极愿景是将 Gemini 打造成真正的通用 AI 助手(Universal AI Assistant),具备个性化、主动性和强大能力。
三、Veo 3 一次性生成超真实有声视频,每月花 1800 元才能体验
多模态模型方面,谷歌发布了最新图像生成模型 Imagen 4。Imagen 4 可以逼真地刻画出复杂的织物、水滴和动物毛皮等物体。这款模型最高支持 2K 分辨率,图片纵横比和自由定制,其文字生成和排版能力也有明显提升,给海报制作、PPT 制作等生产级应用提供了更好的支持。
谷歌视频生成模型 Veo 2 新增了视频参考、相机控制、对象添加与删除等功能,而最新发布的 Veo 3 实现了有声视频的直接生成,能直接给城市街道场景的视频配上自然的噪音,或是直接生成人物之间的对话。此外,Veo 3 在文本和图像提示、现实世界物理和口型同步方面都表现出色。
谷歌为 Veo 打造了配套的 AI 电影制作工具 Flow,这一工具集成了 Veo、Imagen 和 Gemini 三款模型,可用于电影片段、场景和故事的创作。
音乐生成方面,谷歌进一步扩大了配套的音乐创作平台 Music AI Sandbox 的访问权限,由 Lyria 2 音乐生成模型提供技术支持。谷歌还打造了交互式音乐生成模型 Lyria Realtime,允许用户实时交互地创建、控制音乐。
在大量 AI 生成内容出现之后,此类内容的识别也成为关键挑战。谷歌于 2023 年推出了 SynthID 水印,迄今为止已为 100 亿份 AI 生成的图像、视频、音频和文本内容添加水印。今天,谷歌进一步发布了 SynthID 检测器,这一验证门户能帮助人们更方便地识别 AI 生成内容。
Gemini 将推出 Canvas 功能,支持互动性的用户协作。用户描述需求后,Canvas 可自动生成可分享的交互式内容,其他用户也可以对这一内容进行修改。
谷歌还推出了 Gemini in Chrome,这是一款 Chrome 浏览器中内嵌的个性化助手,实时理解当前网页内容与用户所处的上下文。例如,在购物场景中,Gemini in Chrome 可以帮助用户快速对比商品评论、辅助决策。这一功能将于本周面向美国用户开放。
Gemini App 中将内置上述一系列谷歌的媒体内容生成模型。
四、联手三星、高通共建安卓 XR,现场演示智能眼镜回消息、搜图片
谷歌副总裁、安卓 XR 主管沙赫拉姆 · 伊扎迪(Shahram Izadi)称,安卓平台现在正发生许多令人兴奋的变化。上周,谷歌已经发布了安卓 16 和 Wear OS 6 两大新一代操作系统,而今天发布的许多 Gemini 最新进展将很快登上安卓平台,不仅限于手机,还包括手表、汽车和智能电视。
而谷歌的安卓 XR 是 Gemini 时代的首个安卓平台,将支持从头显到智能眼镜等多种设备类型,满足不同使用场景的需求,如沉浸式观影、游戏和工作等。
目前,谷歌正与三星合作共建安卓 XR,并与高通合作针对骁龙平台进行优化。自去年发布开发者预览版以来,已有数百名开发者为该平台构建应用。
谷歌认为,智能眼镜是 AI 的理想载体。现场,谷歌工作人员和 NBA 球星 " 字母哥 " 一同展示了谷歌眼镜原型机的使用体验。
天气、时间、图像和消息等信息能以彩色形式显示在谷歌眼镜上,用户可以直接通过语音指令让安卓 XR 智能眼镜完成消息回复、开启勿扰模式、图像检索等操作。
这款眼镜还具备一定的上下文记忆能力。在演示人员登上台后,谷歌眼镜能回忆起刚才在后台看到的咖啡究竟是什么品牌的。
谷歌称,他们与三星的合作关系将会提升至新的高度,从头显拓展至智能眼镜领域,双方已经在合作开发软件和参考硬件平台。
继与三星合作的 XR 头显 Project Moohan 后,谷歌官宣了第二款安卓 XR 设备——来自 XREAL 的 Project Aura。这款智能眼镜使用了安卓 XR 的软件堆栈和高通骁龙 XR 芯片,配备光学透视(OST)和虚拟透视(VST)显示技术,拥有 70 度的视野,不过仍然采用了有线的设计。
五、AI Mode 支持上传全身照虚拟试穿,跟踪低价代理结账
自去年在 I/O 大会上推出以来,谷歌搜索的 AI Overviews 月活用户已达 15 亿,在 200 多个国家和地区可用。
AI Overviews 是 Google Lens 视觉搜索增长的驱动力之一。Google Lens 搜索次数的年增长率为 65%,今年已经完成超过 1000 亿次视觉搜索。
为提供更沉浸式的 AI 搜索体验,谷歌推出了全新的 "AI Mode"。AI Mode 以新标签页形式出现在搜索界面中,其底座是谷歌基于 Gemini 2.5 定制的模型版本。
这一模式下,其会针对用户需求对答案进行整合并提供方便阅读的答案形式,如附带评分的饭店信息、包含地图概览的答案等,同时,用户还可以通过对话形式进行后续追问。这项功能今天开始在美国推出。
AI Mode 背后的关键技术是 " 查询扇出(query fan-out)",可跨子主题和多个数据源同时发出多个相关搜索,然后将这些结果汇总在一起,提供易于理解的响应。
在个性化搜索能力方面,AI Mode 允许用户引入更多偏好信息,帮助用户预定座位、进行所在地活动推荐等。对于用户需要获得更为详尽答案的问题,AI Mode 能代表用户发起数十次甚至数百次搜索,几分钟内生成一份专业级报告。
AI Mode 在体育数据、金融分析中的深度应用会于今年夏天推出。如让其展示本赛季和上赛季使用鱼类球棒球员的打击率和上垒率,这个问题包含不同赛季、使用特定球棒的球员、打击率、上垒率等多个要素。其会动态为用户生成如图表等适应用户观看的界面。
AI Mode 还重塑了用户的购物体验,帮助用户定制浏览界面、虚拟试穿以及结账。
AI Mode 将 Gemini 与购物图谱相结合,拥有超过 500 亿个产品,并附有评论、价格、颜色选项和可用性等详细信息,同时会根据用户特定需求定制产品浏览面板。
基于 AI Mode,用户选中衣服点击 " 试穿 " 图标、上传全身照,就能进行虚拟试穿。这一效果由时尚定制图像生成模型提供支持,该模型能够理解人体结构和服装的细微差别,例如不同面料在不同人体上的折叠、拉伸和悬垂效果。
同时,用户在商品详情上点击 " 跟踪价格 ",然后设置合适的尺码、颜色以及期望的支付金额,AI Mode 就会自动在不同网站监控降价信息,并向用户发送降价通知,将商品添加到用户购物车并通过 Google Pay 完成结账。这项视觉购物、结账功能将在未来几个月内陆续推出。
六、三大研究项目突破:3D 视频通讯、视频通话搜索、为 Agent 引入多任务处理能力
皮查伊重点提到了目前正改变谷歌产品的三个例子:
第一个项目是在 Project Starline 之上,谷歌推出一个以 AI 为核心的全新视频通话平台 Google Beam,该平台采用新一代视频模型将 2D 视频流转换为 3D 体验,通过 6 台摄像机组成的阵列捕捉用户动作,借助 AI 将这些视频流进行合并,实时处理呈现用户影像,精度达毫米级,每秒 60 帧。谷歌与惠普合作的首批 Google Beam 设备将于今年晚些时候向其测试用户推出。
此外,谷歌致力于将 Project Starline 的底层技术引入 Google Meet 视频会议平台,包括实时语音翻译功能。今天谷歌将直接在 Google Meet 中推出实时语音翻译功能,订阅用户可以使用英语和西班牙语,未来几周之内将会支持更多语言,今年晚些时候面向企业用户推出。
第二个项目是实时、多模态的 AI 助手项目 Project Astra,如今 Gemini Live 已具备 Project Astra 的摄像头和屏幕共享功能,让用户可以畅聊所见的一切。
去年,Project Astra 展示的实时视觉、屏幕共享和记忆功能已逐步集成至 Gemini 中,今天谷歌新增了更自然的原生语音交互和计算机控制功能。
Gemini Live API 现已推出音频视频输入和本地音频输出的预览版本,开发者可以控制其语调、口音和说话风格。
Project Astra 还可用于视障人士的辅助。谷歌演示了 Project Astra 如何帮助一名盲人音乐家完成现场演出。
第三个项目是 Project Marina,这是一个能够与网络交互并且完成任务的 Agent,谷歌将 Agent 视为结合了先进 AI 模型智能与工具访问能力的系统。
其中,计算机使用是一项使 Agent 能与浏览器和其他软件进行交互和操作的重要能力。谷歌引入了多任务处理能力,Project Marina 可以同时监管十项任务,用户展示一次任务,Agent 还可以学会为未来类似的任务去制定相应的计划。
谷歌将通过 Gemini API 将 Project Marina 的计算机使用能力带给开发者,今年夏天会面向更广泛用户开放。
Gemini SDK 现在兼容 MCP 工具,谷歌会逐步将整体功能引入到谷歌搜索以及 Gemini 应用。
结语:谷歌全面重塑搜索、浏览器体验,剑指通用 AI 助手
哈萨比斯提到,过去的十年中,谷歌为现代 AI 时代奠定了许多基础,从率先提出所有大语言模型赖以构建的 Transformer 架构,到开发 AlphaGo 和 AlphaZero 等可以学习和规划的智能体系统,并且已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。
这也是其最新在年度开发者大会上宣布诸多更新的技术底座。谷歌在升级 Gemini 模型的同时,将更多的 AI 能力融入到搜索、Gmail 和浏览器之中。同时,谷歌还预告了未来的重大举措,包括改进视频通话功能、打造更具感知力和对话能力的助手,以及合作开发智能眼镜。
这些都彰显出谷歌作为科技巨头雄厚的技术实力和广泛的应用市场,并且在 I/O 大会上,谷歌也提到将在基础研究上加倍投入,真正构建更个性化、更主动、更强大的 AI。未来实现通用人工智能(AGI)的下一个突破性技术或许将会更快到来。
登录后才可以发布评论哦
打开小程序可以发布评论哦