钛媒体 05-26
从AI技术到AI落地,Google I/O开发者大会传递出了7个信号
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 产业家,作者 | 斗斗 ,编辑 | 皮爷

正如谷歌 CEO 皮查伊所言:" 我们正进入 AI 平台变革的新阶段。" 这场发布会不仅是一次技术秀,更是一场关于未来十年产业变革的宣言—— AI 的战场,正在从代码与算力,转向千行百业的真实场景。

在一片期待与好奇的氛围中,谷歌 I/O 开发者大会如期而至,5 月 21 日凌晨 1 点,于美国加州山景城的海岸线圆形剧场内正式拉开帷幕。

不出意外的,AI 依旧是今年的主题,但不同于以往,今年谷歌 I/O 开发者大会的热度高的出奇,网友的口碑也是一片叫好。

在全球科技圈的集体注视下,这次谷歌究竟到底带来了哪些技术升级和新产品?对于 AI 技术落地企业、行业甚至产业的方向,以及 AI 技术的走向,又传递了哪些讯号?

一、模型——从秀能力奔向秀落地范式

Gemini 2.5 Pro 模型,是这次大会的重头戏。

与前代模型相比,Gemini 2.5 Pro 最大的突破在于引入了 " 动态推理架构 "。它不再是单纯根据输入数据生成答案,而是通过生成多个假设分支、模拟不同决策路径,最终选择最优解。这一机制类似于人类在复杂问题前的 " 沙盘推演 ",使 AI 在医疗诊断、工业质检等高风险场景中的错误率降低。

技术突破的落地往往受制于现实瓶颈。

以往,制造企业长期抱怨 AI 模型的 " 黑箱特性 ",例如即使模型给出错误判断,工程师也难以追溯问题根源。为此,Gemini 2.5 Pro 的 " 推理过程可视化 " 功能,将模型决策拆解为可解释的逻辑节点,例如在汽车焊点质检中,系统不仅能识别缺陷位置,还会标注 " 因焊接温度波动超过阈值导致金属结晶率下降 " 等具体原因。

2025 年,全球 AI 产业站在了十字路口。当生成式 AI 在内容创作领域陷入同质化竞争时,企业对 AI 的期待已不再局限于 " 回答问题 ",而是希望其成为驱动决策的 " 智慧大脑 "。谷歌此时推出 Gemini 2.5 Pro,正是回应了这一产业转型的迫切需求。

可以预见,在这一技术升级下,未来具备 " 决策可追溯性 " 的 AI 模型将渗透企业核心业务流程,推动 AI 从效率工具升级为战略决策中枢。

在模型方面,谷歌还发布了 Deep Think 超强版以及 Flash 低门槛版。

Deep Think 版本通过引入增强型推理机制,在数学、编程和多模态任务中实现 " 可能性预判 ",显著提升复杂场景的决策精度,其在目前最难的数学基准之一 2025 USAMO 上取得了令人印象深刻的分数。此外,还在一个针对竞赛级编程的难度基准—— LiveCodeBench 上处于领先地位,并在测试多模态推理的 MMMU 上取得了 84.0% 的分数。

其 Flash 版本则专为速度和低成本而设计,以轻量化设计支持边缘计算。数据显示,该模型响应速度较之前提升 40%。

谷歌这种模型分层设计(云端大模型 + 边缘轻量化),可以大幅解决产业落地中 " 算力 - 成本 - 实时性 " 的三角矛盾。

总结来说,此次 Google I/O 开发者大会,谷歌在模型层面不仅仅是秀能力,更多的是通过新产品和技术升级,推动 AI 真正落地场景、行业、产业,秀的是其 AI 技术落地路径。

二、AI 问答助手:可听、可看、可操作

除了大模型方面的升级,谷歌还发布了一系列产品,其中 Project Astra 所展示出来的多模态交互能力,让人眼前一亮。

其技术突破在于多模态感知的深度融合:摄像头捕捉视觉信息后,系统会结合麦克风阵列的空间音频定位、IMU 传感器的运动轨迹数据,在 0.1 秒内构建出完整的环境模型。

众所周知,AI 辅助设备的核心痛点是现有系统依赖语音指令或固定阈值报警,却无法像人类一样感知环境动态。

谷歌 Project Astra 的发布,标志着 AI 开始具备 " 具身认知 " 能力——它不仅能 " 看 " 和 " 听 ",还能理解物理空间的上下文关系,并主动采取行动。

但实现这一能力需要突破硬件算力的物理限制。传统边缘设备难以支撑实时视频分析所需的算力,而 Project Astra 通过 " 动态任务卸载 " 技术巧妙化解了这一矛盾:低复杂度任务(如手势识别)在本地完成,高负载任务(如 3D 环境建模)则通过 5G 网络回传云端处理。

现在,Gemini Live 已整合 Project Astra 的摄像头和屏幕共享功能,并向所有 Android 用户开放,并将于当天开始向 iOS 用户推出。

从更大的视角来看,该产品或将很大程度上,改变 AI 助手抑或是智能终端在场景割裂(如家庭与办公场景需切换不同设备)和被动响应(仅回答预设问题)的局限,满足企业级连续性需求。

三、AI 搜索,一个能完成各种任务的智能助手

此次大会上,谷歌还首次将 Gemini 2.5 Pro 深度整合至搜索引擎,推出 "AI 模式 " 功能。

据了解,用户可通过多模态输入(文字、语音、图像)直接获取结构化答案,而非传统链接列表。

以规划 " 东京五日游 " 为例,AI 不仅生成详细的行程建议,还会根据用户的预算、喜好、出行方式等个性化需求,自动推荐合适的餐厅、酒店,并提供在线预订服务,同时还能比价购票,为用户节省时间和成本。在旅游过程中,用户甚至可以通过摄像头实时识别景点,获取详细的背景信息和历史故事,让旅行体验更加丰富和有趣。

这标志着搜索引擎或将从传统的链接列表模式向智能化、个性化、服务化的方向全面转型。

这与传统广告模式的底层逻辑完全不同。

在过去,广告商主要通过购买关键词广告、展示广告等方式吸引用户点击链接,进而实现品牌推广和产品销售。然而,AI 模式通过直接在搜索结果中嵌入商品推荐和 " 智能结账 " 功能,为电商、本地服务等行业开辟了全新的变现路径。

此外,AI 直接提供答案的模式将减少用户跳转第三方网站的需求。这一变化对内容生产者提出了新的要求,倒逼他们优化数据结构以适应 AI 抓取,推动 SEO(搜索引擎优化)向 " 答案优化 " 转型。内容生产者需要更加注重内容的质量、深度和结构化,以确保其信息能够被 AI 准确理解和呈现,从而在新的搜索生态中占据有利地位。

据谷歌透露,其搜索业务的 " 下一站 " 将是 AI 驱动的交互模式升级,用户将体验到更加自然、个性化的信息获取方式,从而重构互联网流量分配规则。

未来,搜索引擎或将不再是简单的信息检索工具,而是一个能够理解用户意图、提供主动服务、协助用户完成各种任务的智能助手。这将彻底改变用户与互联网互动的方式,推动互联网行业进入一个全新的发展阶段,为相关产业带来新的机遇和挑战。

四、AI Agent ——从 " 工具 " 到 " 同事 "

Project Mariner 代理系统的升级也是本次大会的一大亮点。

升级后的 Project Mariner 代理系统可同时处理 10 项任务,例如在用户指令下自动完成 " 查找食谱 → 生成购物清单 → 在线下单 " 的全流程。其基于浏览器扩展的架构,能理解网页内容(文本、图像、表单)并模拟人类操作。

对于企业而言,Project Mariner 在重复性流程的自动化处理方面展现出了巨大的价值。

在数据录入工作中,它能够快速准确地将大量数据录入系统,避免了人工操作可能出现的错误和疲劳,提高了数据处理的速度和质量。在订单处理方面,它可以自动跟踪订单状态、更新订单信息、安排发货等,确保订单的及时交付和客户满意度的提升,帮助企业节省运营成本。

目前,谷歌方面表示 Project Mariner 的技术将通过 Gemini API 开放给开发者,而这一举措也将进一步扩大了其生态影响力。

开发者可以基于 Mariner 的功能开发出更多符合特定行业和业务需求的应用程序,为企业提供个性化的自动化解决方案。例如,在金融行业,开发者可以利用 Mariner 的多任务处理能力和网页理解能力,开发出自动化的风险管理工具和投资分析平台,帮助金融机构更高效地进行市场分析、风险评估和投资决策。

这一变革不仅提升了生产力效率,也为 AI 代理的商业化应用提供了新路径。

随着 Mariner 技术的不断成熟和应用场景的不断拓展,它将为企业和用户带来更多创新性的解决方案,推动各行业向智能化、自动化方向加速发展,进一步重塑产业格局和工作模式。

五、生成式 AI,奔向工业化生产

在内容创作领域,谷歌也带来了一些重大突破,推出了 Veo 3 视频生成模型和 Imagen 4 图像生成模型。

据了解,Veo 3 支持音视频同步生成,例如为视频添加背景音乐、音效甚至对白,解决了以往 AI 视频生成中 " 有影无声 " 的问题。

提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 "fofr"。一对夫妇说了些什么,观众大笑起来。

而 Imagen 4 的图像生成速度比前代快 10 倍,分辨率达 2K,细节渲染能力显著提升。

目前,两者均被整合至电影制作工具 Flow 中,支持自定义镜头、场景和角色动作。

开发者大会上,谷歌展示了 Veo 3 生成的高清视频,其细节渲染能力接近专业电影制作水平。可以期待的是,在短视频和广告行业,创作者未来或将可通过 AI 快速生成高质量素材,制作成本或将大幅降低。

更值得期待的是,在影视工业领域,Flow 工具允许导演用自然语言调整镜头语言,AI 实时渲染预览画面,缩短制作周期,这将推动 " 敏捷创作 " 模式普及。

总得来看,Veo 3 和 Imagen 4 的推出,显然直接降低了内容生产的门槛。

针对当下生成式 AI 的广泛应用带来的版权和伦理挑战,谷歌还同步推出的 SynthID 水印技术,试图通过技术手段解决 AI 生成内容的真实性验证问题。

这一技术不仅重塑了内容生产范式,也为长尾创作者提供了与大厂竞争的工具,推动创意产业进入 " 人人皆可创作 " 的新阶段。   谷歌透露,未来还将推出 "AI 导演 " 功能,通过强化学习自动生成完整影片叙事框架。

可以看到的趋势是,AIGC(人工智能生成内容)正从 " 创意辅助 " 转向 " 工业化生产 "。

六、AI 时代的 "Android 生态 " 逐渐完整

在硬件领域,谷歌联合 XREAL 发布的 Project Aura AR 眼镜,是本次大会的一大亮点。

据了解,该眼镜搭载高通 XR 芯片和 Gemini 助手,支持实时导航、多语言翻译、语音拍照等功能。其基于 Android XR 平台,可接入谷歌应用生态。

值得注意的是,在这个过程中,谷歌可通过开放 Android XR SDK,吸引开发者构建应用,与苹果 Vision Pro、Meta 雷朋眼镜形成 " 平台 + 硬件 + 内容 " 的全方位对抗。

此外,谷歌还宣布 Gemini 将全面融入安卓生态,覆盖手机、智能手表、汽车仪表盘及电视等终端。用户可通过电源键快速唤醒手机端的 Gemini,而车载系统 Android Auto、智能手表 Wear OS 及 Google TV 均已深度集成 Gemini 模型,支持自然语言交互与多任务处理。

Gemini 深度集成至安卓电源键、汽车仪表盘等核心交互入口,本质上是将用户流量从第三方应用(如 Spotify、Uber)向谷歌自有服务(如 Google Maps、YouTube)导流。

在降低开发门的 API 与工具链(如 Live API、Agent 模式)下,开发者一旦接入谷歌生态,其数据存储、模型调用均依赖谷歌云服务,将形成 " 开发 - 部署 - 运营 " 的全链条依赖。

通过这种 " 全家桶式 " 整合,其实是谷歌在为自己成为 AI 时代的 " 水电煤供应商 " 铺路。这张从硬件到软件的生态大网,编织的愈发完整。

七、订阅制商业模式,奔向盈利  

除了产品的技术,在商业模式上的变化,也是谷歌在 AI 商业化道路上的一次重要尝试。

具体来看,谷歌推出了每月 249.99 美元的 AI Ultra 订阅计划,为追求极致体验的用户提供最高权限的模型访问(如 Veo 3、Deep Think 模式)、30TB 云存储及优先体验权。

这一动作背后,其实是谷歌通过这一模式,瞄准企业用户和专业开发者,构建 " 软硬一体 " 的利润池。

例如,开发者可通过订阅服务访问 Gemini 2.5 Pro 的深度推理能力,而企业用户则能利用 AI Ultra 的生成工具提升内容创作效率。

AI Ultra 的推出标志着 AI 服务从 " 功能采购 " 转向 " 能力订阅 ",推动行业向云计算模式靠拢。谷歌的订阅制策略与 OpenAI(200 美元 / 月)和 Anthropic(200 美元 / 月)形成竞争,但其通过全家桶生态(搜索、Workspace、Android)形成差异化优势。

例如,AI Ultra 用户可享受 YouTube Premium 服务、Google Drive 的 30TB 存储空间,以及由 Project Mariner 技术支持的代理工具。

这一模式不仅提升了谷歌的盈利能力,也为 AI 技术的商业化落地提供了新路径。

写在最后:

2025 年 Google I/O 开发者大会揭示了 AI 技术从实验室走向产业落地的三大核心趋势:

一是从 " 通用 " 到 " 垂直 ",Gemini 2.5 Pro 的深度推理、Mariner 的流程自动化等功能,证明 AI 技术正逐渐具备解决行业具体痛点的能力。;二是从 " 替代 " 到 " 增强 ",AI 不再简单替代人力,而是通过 AR 眼镜、实时搜索等工具扩展人类感知与决策能力;三是从 " 实验 " 到 " 规模 ",订阅制、开发者工具链和硬件生态的完善,标志着 AI 技术在规模化商用这条路上又迈进了一步。  

正如谷歌 CEO 皮查伊所言:" 我们正进入 AI 平台变革的新阶段。" 这场发布会不仅是一次技术秀,更是一场关于未来十年产业变革的宣言—— AI 的战场,正在从代码与算力,转向千行百业的真实场景。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 开发者大会 数学 美国
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论