智东西 05-13
数据决定生成式AI成败?拆解三大关键能力,云大厂如何层层助攻
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西(公众号:zhidxcom)作者 | ZeR0编辑 | 漠影

智东西 5 月 13 日报道,进入生成式 AI 时代,数据成为关键的竞争力要素。访问相同的基础模型,能够利用企业专有数据数据来构建生成式 AI 应用的公司,有更大的机会在商业竞争中取得成功。

基础模型依赖于大规模、高质量数据集,生成式 AI 应用产生的大量新数据也需要及时有效地加以管理和利用。作为全球最大的云计算巨头,亚马逊云科技(AWS)如何构建生成式 AI 时代的数据基座,帮助企业提升模型性能并加速生成式 AI 应用的部署?近日,亚马逊云科技大中华区产品部总经理陈晓建、店匠科技(Shoplazza)首席科学家谢中流博士、北京灵奥科技(Vanus)CEO 厉启鹏与智东西等媒体进行深入交流。

企业构建生成式 AI 应用,需要三大核心数据能力:1)利用数据以模型微调和预训练;2)将专有数据与模型快速结合;3)有效处理新数据,以助推生成式 AI 应用持续快速发展。

" 企业需要的是懂业务、懂用户的生成式 AI 应用,而打造这样的应用需要从数据做起。" 陈晓建谈道,亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式 AI 应用构建的重要场景,能帮助企业轻松应对海量多模态数据,提升基础模型能力。

一、利用现有数据,快速提高模型微调和预训练质量

用企业自身的数据去差异化生成式 AI 应用,通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调、持续预训练,分别适用不同的应用场景。Amazon Bedrock 提供对这三类模型定制方式的支持。

生成式 AI 基础模型微调和预训练需要将海量的多样化原始数据转化为大规模、高质量的数据集,对数据存储、清洗和治理提出更严峻的挑战

如果一本书按 500KB 算,500T 参数的模型已经有 332 亿本,相当于现存每个人有 4 本书。

在数据存储方面,扩展性和响应速度是关键。用于训练的高质量数据越多,模型精度就越高;存储速度影响计算速度和模型训练进程。

数据存储面临训练占用 I/O 且吞吐量大、GPU 很难饱和、未充分利用的计算资源非常昂贵、吞吐量瓶颈导致更长的训练时间等问题。

对此,Amazon S3 对象存储支持广泛的数据协议,能轻松应对各种数据类型,还支持智能分层以降低训练成本;文件存储服务 Amazon FSx for Lustre 能提供亚毫秒延迟和数百万 IOPS 的吞吐性能,进一步加快模型优化的速度。

LG AI Research 需要训练并部署拥有 3000 亿参数的多模态基础模型 EXAONE 到生产环境。它使用 Amazon SageMaker 去训练大规模基础模型,用 Amazon FSx for Lustre 将数据分发到实例中来加速模型训练,成功训练并部署了 EXAONE,并通过消除单独的基础设施管理团队,将成本降低了大约 35%。

在数据清洗方面,企业面临着繁重的数据清洗加工任务。而 Amazon EMR Serverless 和 Amazon Glue 可以帮助企业轻松完成数据清理、去重、乃至分词的操作。

Amazon EMR serverless 采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小;Amazon Glue 是一个简单、可扩展的无服务器数据集成服务,能够更快地集成数据,轻松快速地完成微调或预训练模型的数据准备工作。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。

Amazon DataZone 通过可信的自治,让企业能够跨组织边界大规模地发现、共享和管理数据,能够为多源多模态数据进行有效编目和治理,还提供简单易用的统一数据管理平台和工具。

二、将现有数据与模型快速结合,让企业专有数据释放独特价值

生成式 AI 基础模型自身存在一些局限性,比如无法及时拥有企业专有数据、缺乏时效性、生成幻觉(错误信息)、存在用户敏感数据的隐私合规风险等。因此企业数据基座的第二项关键能力是通过技术手段加速数据与模型的结合

用户期待生成式 AI 给出高质量答案,但简单的对话背后蕴藏着复杂的提示工程。通过提示工程获取模型介绍,从企业数据库获取用户背景信息,从 RAG 获取上下文,最后才是用户的问题及问题相关的提示词。

RAG 技术被公认是实现数据与模型结合的主要途径之一。企业可以将自身的知识库、数据库等与生成式 AI 模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。

RAG 场景的核心组件是向量存储。RAG 通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

在搜索、评论、购物车、产品推荐等交互框架中,现代应用程序需精准理解用户需求并正确关联产品或内容。这些框架又依赖于功能各异的数据库,使数据库成为实施 RAG 技术的理想平台

亚马逊云科技在其主流的数据服务中支持向量搜索,通过将数据和向量存储在一起来提升数据查询性能,以便企业轻松利用 RAG 技术将专有数据提供给基础模型。

亚马逊云科技还为图数据库 Amazon Neptune 推出了分析数据库引擎,以结合图数据库与基础模型的优势,快速从图形数据中获取洞察,并实现更快的向量搜索。

三、有效处理生成式 AI 应用的新数据,降低模型频繁调用成本

生成式 AI 应用中基础模型的频繁调用往往会带来成本的增加和响应的延迟。因此提升模型调用效率成为企业数据基座的第三项关键能力。

企业需要高效管理飞速发展的生成式 AI 应用产生的新数据,可通过基础模型结果缓存来提升性能,降低成本。

Amazon Memory DB 内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。这是最快的亚马逊云科技向量搜索体验之一,能够存储数百万个向量,只需几毫秒的响应时间,能够以 99% 的召回率实现每秒百万次查询性。

此外,生成式 AI 应用需要快速占领市场。亚马逊云科技通过提供无服务器数据库服务和 Amazon OpenSearch Serverless 用于向量搜索,为企业减少运维负担和成本,消除性能瓶颈。

Amazon Music 应用程序通过分析用户和歌曲的特征,并将它们转换成向量以提高推荐精准度,已通过 Amazon OpenSearch 将 1 亿首歌曲编码成向量并进行索引,来为全球用户提供实时音乐推荐。该应用程序目前在 Amazon OpenSearch 中管理着 10.5 亿个向量,并能够处理每秒高达 7100 次的查询峰值,有效支撑其推荐系统。

亚马逊打造的 Rufus 是一款以生成式 AI 为核心的专业购物助手,能解答客户的购物疑问、提供产品比较,并根据对话情境进行推荐。它将为亚马逊商城超过 2 亿的 Prime 会员提供服务,在提升客户体验的同时也会产生大量新的数据。

四、助攻生成式 AI 与电商业务深度整合,帮企业客服人效提高 70%

国内领先的电商独立站 SaaS 平台店匠科技(Shoplazza)已经累计服务超过 36 万个跨境电商客户。据店匠科技首席科学家谢中流博士分享,Shoplazza 在生成式 AI 方面探索了生成式 AI 营销素材创作、AI 建站 Copilot、智能客服、智能推荐 & 搜索四大板块。

想做外贸生意但没有网站的企业可以使用店匠 Shoplazza AI 建站功能来搭建网站。其 AI 建站使用了 Amazon Bedrock Claude 3 模型来实现对话交互,理解客户需求;基于 Amazon RDS 实现 AI 建站数据底座;拆解捕捉到的需求元素,然后用这些元素进行快速的自动化网站搭建。

Shoplazza 用到 Amazon ElastiCache Redis 缓存向量数据构建智能 AI 客服,利用 Amazon S3 存储海量用户数据与营销素材供模型训练 , 利用 Amazon EMR Flink 运行分布式数据任务来实现实时数据清洗处理,利用 Amazon OpenSearch 存储向量数据来实现极速的商品搜索,通过 Amazon IAM 完善用户权限管理,节省了 40% 的客服成本,提升了 30% 的素材制作效率,增加 20% 搜索推荐收入。

他期待与亚马逊云科技未来在持续优化 BetaCreator 等 AI 作图业务场景、应用大语言模型优化智能客服和其他问答场景、实现生成式 AI 技术和电商业务的更深度整合等方向进一步合作,以实现电商行业更好的用户体验、更高的产出效率、更低的生产成本。

北京 AI 初创公司灵奥科技的主要使命是为企业构建 AI Agent,推出了大模型中间件 Vanus Connect、Vanus AI 和基于 Vanus AI 专为 Shopify 店铺构建的销售类 AI Agent 购物助手 VanChat,已累计服务全球逾 3 万个用户。

灵奥科技 CEO 厉启鹏谈道,大模型企业落地的核心挑战就是解决好数据问题,涉及模型对业务数据的理解和学习、数据隐私和安全合规、数据偏见与公平性,大模型、向量数据库和大模型中间件是企业构建 AI 应用的必备组件。

在帮助国内某 ERP 企业客服人员构建 AI Copilot 时,Vanus AI 基于 Amazon S3、数据库等云服务,帮助用户从文档、数据库、SaaS 软件等多个数据源中实时抽取数据,构建统一的企业知识库;借助 Amazon Bedrock 等服务,为企业客服人员构建 AI Copilot,基于全域业务数据实时推理,将客服人员回复问题的时间从分钟级降到秒级,将客服团队的人效提高 70%。

谈及灵奥科技与亚马逊云科技未来合作规划,厉启鹏希望在数据领域使用向量数据库用于帮助企业构建知识库,使用 Amazon DocumentDB 用于 Agent 元数据的存储以及对话的全文检索,使用 Zero ETL 用于用户数据的预处理;在大模型领域继续深化大语言模型 Claude 3 的使用,并在 Agent 产品推荐方面试用 Embedding 模型。

结语:形成 " 数据 - 模型 - 应用 " 的生成式 AI 数据飞轮

数据是企业在生成式 AI 时代取得成功的关键。亚马逊云科技正在帮助各行业各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式 AI 应用,加速企业业务增长。

亚马逊云科技希望每一个企业在生成式 AI 时代借助亚马逊云科技的服务打造坚实的数据基础,以便高效安全地将海量的多模态数据和各种基础模型相结合,创建出一系列具有独特价值的生成式 AI 应用,进而产生更多的数据,新数据又会继续提升模型的准确度,创造更好的用户体验,从而形成正向的生成式 AI 数据飞轮。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 陈晓 亚马逊云 ai时代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论