经济观察报 04-08
大模型倒逼云存储升级 腾讯云提速加量不加价
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

经济观察网 记者 陈月芹 大模型与云计算,正在成为 AI(人工智能)时代的淘金者和卖铲人。而作为数据的载体,数据存储则是 AI 大模型的关键基础设施。

4 月 8 日,腾讯云带来了面向 AIGC(生成式人工智能)场景全面升级的云存储解决方案,主要由对象存储 COS、高性能并行文件存储 CFS Turbo、数据加速器 GooseFS 和数据万象 CI 等产品组成。

这一系列云存储产品瞄准时下最火的大模型全链路数据处理难题。一般而言,AI 大模型的研发生产流程,分成数据采集、数据清洗、模型训练、推理应用四大环节,各环节都涉及海量的数据处理。

不同的环节,对存储的要求不尽相同。腾讯云存储总经理马文霜介绍,数据采集阶段需要一个大容量、低成本、高可靠度的数据存储底座,方便数据快速接入;在数据清洗阶段,需要存储提供一个更多协议的支持;在模型训练阶段,通常需要每 2 小时至 4 小时保存一次训练成果,以便能在 GPU(图形处理器)故障时能回滚,因此快速地读写 checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键,保障连续训练和提升 CPU(中央处理器)的有效使用时长;在推理应用阶段,更需要存储提供丰富的数据审核能力,来满足鉴黄、鉴暴、安全合规的诉求,保证大模型生成的内容是合法、合规的。

此次发布会上,相比其他产品,CFS Turbo 被着墨介绍的篇幅更多。

CFS Turbo 是面向 AIGC 训练场景进行专门优化的腾讯云自研产品,据介绍,其每秒总读写吞吐能达到 TiB/s(太字节每秒)级别,每秒元数据性能高达百万 OPS(算力单位)。3TB(太字节)checkpoint 写入时间从 10 分钟,缩短至 10 秒内,能使大模型训练效率大幅提升。

腾讯云文件存储总监陆志刚说,AIGC 业务场景对数据存储提出了更高的挑战,尤其是在模型训练和推理方面,需要超高的写吞吐和对小文件超高的 OPS 性能。

陆志刚把 GPU 的大模型训练比作是一个炼丹炉,它需要用户喂入数据从而产生想要的结果,而此时文件存储就是用来给大模型提供输入和输出的载体,一方面,输入海量的小样本文件,比如互联网上抓取的网页和 PDF(便携式文档格式文件)书籍文档,另一方面,输出形式则是一个模型文件。大模型需要通过一个大的 TB 级模型文件来提供推理,因此对小文件的 OPS 和大文件的吞吐有比较高的要求。

面对这个挑战,文件存储需要一个并行的客户端、强一致缓存、后端服务端集群能提供分布式服务等技术要素。而 CFS Turbo 就是具备这三种要素的分布式并行文件存储。

除了腾讯混元大模型,谁是更新换代后的腾讯云存储产品的目标客户?

腾讯云存储总经理陈峥解释,腾讯的整个自研业务里,包括混元大模型,都是基于整个 AIGC 云存储的底座来构建的,其中包括 checkpoint 是基于 CFS Turbo 高性能写入的新架构,以及数据清洗基于对象存储 COS 和存储引擎 YottaStore 进行构建的。

陈峥没有透露云存储升级后的效率数据:" 从自研业务上看,我们的训练时间提升了 2 倍以上。外部客户来看,AIGC 清洗领域的一些创业公司应用了我们整个 AIGC 云存储的解决方案后,清洗、训练的效率也得到了提升,包括应对读写大带宽、高吞吐时,跑出实际业务的值已经超出我们当时的想象,确实提升有数倍之多。"

马文霜还补充,两年前腾讯发布 CFS Turbo 第一个版本时,读写吞吐量是 100GB(千兆字节),当时团队觉得这个读写吞吐量已经足够大,很多业务用不到,但 2023 年大模型出来后,用第一代 CFS Turbo 去写 checkpoint 时会发现 100GB 还远远不够," 现在我们把吞吐量升级到 1 TB,也是希望让大模型用户能更快地加速训练,提升效率 "。

据马文霜介绍,目前已经有 80% 的头部大模型企业选择腾讯云 AIGC 云存储解决方案,包括百川智能、智谱 AI、元象科技等明星大模型企业。

不过,大模型企业不是腾讯云存储解决方案的单一客户,陈峥透露,除了 AIGC 领域,自动驾驶领域的应用案例不少。相比大模型,自动驾驶更侧重训练,在推理方面的要求偏少。当 AIGC 训练出模型后,目前一些 C 端(个人用户端)软件基于智能模型再去做推理实际应用输出,比如月之暗面公司的大语言模型 Kimi 是 To C(面向个人用户)的,自动驾驶更侧重在 B 端(企业用户端),通过路采数据做清洗、分割,再输送到整个自动驾驶训练场景,能够产生一些模型的数据,辅助车辆规避路障,最后实现自动驾驶。

因此,除了大模型企业,CFS Turbo 也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。

虽然同处在腾讯体系内,云存储和混元大模型如何协同,是外界十分关心的问题。比如,当混元大模型提出更高需求时,云存储作为其底座,是否需要 " 花费比较大的力气才能达成 "?

陈峥对此进行了否认,直言 " 还好,没有花很大的力气 "。

他解释,当客户提出 100GB 量级需求的时候,腾讯云已经在预估怎么去满足 200GB 甚至 500GB 等需求。如果客户给你提 100GB 要求时,我只能提供 100GB 的能力,产品的局限性已经存在了。

这时,马文霜还补充了一点他观察到的变化:" 今年第一季度,大模型企业在云存储的消耗同比增加了,可能是大模型企业拿到的投资更多了吧。"

" 云存储解决方案升级后,价格会涨吗?" 马文霜明确表示," 价格没有变化 "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

腾讯云 人工智能 gpu 基础设施 书籍
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论