动点科技 05-15
2024 谷歌开发者大会:三句话不离 AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

I/O 大会(开发者大会)是谷歌一年一度的秀肌肉时刻,也是人工智能时代不容错过的大舞台。今日凌晨,新一届 I/O 大会在谷歌加州总部开幕。据悉,本次大会结束后统计提到了 AI 共 121 次(包括文本的话实际应该还不止),全面展示了谷歌如何将 AI 技术融入其核心产品,从搜索引擎到移动操作系统,再到专用硬件,AI 的应用无处不在。

特别是 Gemini 1.5 Pro 的发布,标志着谷歌在处理大规模数据和提升用户体验方面迈出了重要一步。此外,谷歌还推出了更轻量级的模型 Gemini 1.5 Flash,以及进一步升级的开源模型 Gemma 2,这些举措不仅展示了谷歌在 AI 技术上的创新,也彰显了其推动 AI 技术普及和应用的决心。

Gemini 全家桶迭代

Gemini 1.5 Pro 是本次的重头戏。谷歌将 Gemini 1.5 Pro 的上下文长度从原有的 100 万 tokens 提升到了 200 万 tokens,这一升级将极大地增强其数据处理能力,使得模型在处理更加复杂和庞大的数据时更加游刃有余。同时,谷歌还宣布 Gemini 1.5 Pro 将全面支持 Workspace。

据悉,全新 Gemini 1.5 Pro 具有原生音频理解、系统指令、JSON 模式等,能够使用视频计算机视觉来分析图像和音频的视频,这使其具有人类水平的视觉感知。使用深度神经网络,Gemini 1.5   Pro 可以以超人的精度识别图像中的物体、场景和人物。此外,谷歌宣布将 Gemini 1.5 Pro 面向全球开发者开放。

同时,为了快速响应与成本效益,谷歌还推出更轻的模型 Gemini 1.5 Flash,其在摘要生成、聊天应用、图像和视频字幕、以及从长文档和表格中提取数据等方面表现出色,主要面向广大开发者群体。

值得一提的是,谷歌将进一步升级开源模型 Gemma 2。据了解,Gemma 2 模型的高效设计使其所需的计算量少于同类模型的一半,使更广泛的用户能够轻松部署并享受成本效益。

谷歌还宣布为 Gemini 平台引入旅行规划功能。该功能将结合个人信息和公共出行信息,帮助用户进行航班、酒店等度假行程的预订和规划。谷歌表示,Gemini 可以根据用户的提示,快速挖掘出航班时间和酒店预订等具体细节,在短短几秒钟内制定出合适的度假计划。与手动规划一次旅行可能需要数小时、数天甚至数周的时间相比,Gemini 几乎可以瞬间完成这一过程。

谷歌表示,新的旅行计划功能将在未来几个月内登陆 Gemini Advanced 平台。

搜索引擎升级

谷歌相信人工智能是搜索的未来。为此,谷歌开始向搜索引擎 " 动刀 "。

谷歌即将向美国和世界各地的用户推出 "AI 概述 " ——在搜索结果的顶部将出现人工智能生成的摘要,而这只是人工智能如何改变搜索的开始。

谷歌搜索主管 Liz Reid 说:" 我们从生成式人工智能中看到的是,谷歌可以为您进行更多的搜索。" 过去几年,她一直在研究人工智能搜索的所有部分。" 它可以从搜索中完成很多艰苦的工作,所以你可以专注于你想完成事情的部分,或者你觉得令人兴奋的探索部分。"

AI 概述,旨在让用户大致了解查询的答案,以及获取更多信息的资源链接。谷歌正在使用其 Gemini 人工智能来弄清楚你在问什么,无论你是在打字、说话、拍照还是拍摄视频。然而,Reid 说,并非每次搜索都需要这么多人工智能,也不是每次搜索都会得到它。" 如果您只想导航到 URL,您可以搜索沃尔玛,然后前往 walmart.com。添加人工智能并不真正有益。" 她认为 Gemini 最有帮助的地方是在更复杂的情况下,你要么需要进行大量搜索,要么甚至一开始就得到一个大概的预览。

对于本地搜索,有了 Gemini," 我们可以做一些事情,比如‘在比肯山步行半小时内找到波士顿最好的瑜伽或普拉提工作室,评分超过四星级。’ " 也许,她继续说,你也想知道哪些对第一次来的人有最大的帮助。对于用户来说,这可能意味着一种与互联网互动的全新方式:更少的打字,更少的标签,以及更多的搜索引擎聊天,获得信息将更加高效。

针对竞对推出 Project Astra 和 Veo

针对昨日 OpenAI 发布的 GPT-4o,谷歌也发布了对标的大模型 Project Astra。

据介绍,谷歌是在 Gemini 的基础上开发了智能体原型,它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用,从而更快地处理信息。通过语音模型,谷歌还强化了智能体的发音,为智能体提供了更广泛的语调。这些智能体可以更好地理解他们所使用的上下文,并在对话中快速做出响应。

另外,为了对抗 Sora,谷歌开发的 AI 视频生成软件 Veo,同样支持使用文本生成视频,并且能创建超过 60s 的 1080P 视频,同时还能使用多种电影风格和更好地理解自然语言。

谷歌表示,创作者在使用 Veo 时,可以使用各种电影拍摄术语来指导 Veo 达到想要的视觉效果,如 " 延时摄影 " 和 " 风景航拍 ",减少调整提示词的时间。另外,Veo 还支持扩展视频的功能。如果创作者对现有的视频长度不满意,可以让 Veo 自动扩展视频,或者补充提示词来生成更长的视频。

目前谷歌已经开放了试用通道,未来其还准备将 Veo 的一些功能添加到 YouTube 的短视频模块中。

Android 15

毫无疑问,人工智能是谷歌在本次大会上的重中之重。在移动操作系统上,Android 15 得到了 Gemini 的助力,包括它即将提供的设备端功能。

当前的 Android 15 预发布版带来了新功能,如更多的应用程序内相机控制、部分屏幕共享和响度控制,以及对 PDF、NFC 和卫星连接支持的改进。谷歌移动操作系统的新增内容侧重于生产力,用户隐私和安全,通信和性能等。

除了融合谷歌 Gemini 大模型,Android 15 还新增了多项功能,比如弱光增强功能,这是一种新的自动曝光模式,它与夜间模式相机创建静态图片的方式不同,后者会通过多张合成来提升夜景表现。弱光增强的重点在于提升相机预览界面的效果,以便用户更好地在弱光环境下取景构图,或者在光线昏暗的环境下扫描二维码。

目前,Android 15 开发人员和测试版仅在某些 Google Pixel 设备上可用,从 Pixel 6 到 Pixel 8 Pro,以及 Pixel Fold 和 Pixel Tablet。

第六代 TPU 问世

TPU(张量处理器)是谷歌为机器学习定制的专用芯片,发端于十一年前,在谷歌诸多产品和服务中都能看到其身影,为谷歌 AI 帝国的建立立下了赫赫之功。

谷歌表示,全新的 Trillium 能够以更快的速度训练新一代 AI 模型,同时减少延迟和降低成本。与上一代 TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,高带宽内存 ( HBM ) 容量和带宽提高了一倍,芯片间互联 ( ICI ) 带宽也提高了一倍。作为迄今为止谷歌最具可持续性的 TPU,与其前代产品相比,能效提高了超过 67%。

结语

时隔一天,谷歌紧随对手 OpenAI,密集地推出了一系列 AI 产品或服务。在此,谷歌不仅展示了其在 AI 技术上的突破,更彰显了其将 AI 融入日常生活各个方面尤其是生产力的决心。

对此,英伟达高级科学家 Jim Fan 发表了自己的观后感,他认为谷歌做对了一件事," 他们终于开始认真努力将人工智能融入搜索框," 他表示,谷歌最强大的护城河是分销,"Gemini 不必是最好的模型,就可以成为世界上使用最广泛的模型。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

谷歌 ai 开发者大会 航班 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论