大模型倒逼云存储升级腾讯云提速加量不加价

经济观察网记者陈月芹 大模型与云计算，正在成为 AI（人工智能）时代的淘金者和卖铲人。而作为数据的载体，数据存储则是 AI 大模型的关键基础设施。

4 月 8 日，腾讯云带来了面向 AIGC（生成式人工智能）场景全面升级的云存储解决方案，主要由对象存储 COS、高性能并行文件存储 CFS Turbo、数据加速器 GooseFS 和数据万象 CI 等产品组成。

这一系列云存储产品瞄准时下最火的大模型全链路数据处理难题。一般而言，AI 大模型的研发生产流程，分成数据采集、数据清洗、模型训练、推理应用四大环节，各环节都涉及海量的数据处理。

不同的环节，对存储的要求不尽相同。腾讯云存储总经理马文霜介绍，数据采集阶段需要一个大容量、低成本、高可靠度的数据存储底座，方便数据快速接入；在数据清洗阶段，需要存储提供一个更多协议的支持；在模型训练阶段，通常需要每 2 小时至 4 小时保存一次训练成果，以便能在 GPU（图形处理器）故障时能回滚，因此快速地读写 checkpoint（检查点）文件也成了能否高效利用算力资源、提高训练效率的关键，保障连续训练和提升 CPU（中央处理器）的有效使用时长；在推理应用阶段，更需要存储提供丰富的数据审核能力，来满足鉴黄、鉴暴、安全合规的诉求，保证大模型生成的内容是合法、合规的。

此次发布会上，相比其他产品，CFS Turbo 被着墨介绍的篇幅更多。

CFS Turbo 是面向 AIGC 训练场景进行专门优化的腾讯云自研产品，据介绍，其每秒总读写吞吐能达到 TiB/s（太字节每秒）级别，每秒元数据性能高达百万 OPS（算力单位）。3TB（太字节）checkpoint 写入时间从 10 分钟，缩短至 10 秒内，能使大模型训练效率大幅提升。

腾讯云文件存储总监陆志刚说，AIGC 业务场景对数据存储提出了更高的挑战，尤其是在模型训练和推理方面，需要超高的写吞吐和对小文件超高的 OPS 性能。

陆志刚把 GPU 的大模型训练比作是一个炼丹炉，它需要用户喂入数据从而产生想要的结果，而此时文件存储就是用来给大模型提供输入和输出的载体，一方面，输入海量的小样本文件，比如互联网上抓取的网页和 PDF（便携式文档格式文件）书籍文档，另一方面，输出形式则是一个模型文件。大模型需要通过一个大的 TB 级模型文件来提供推理，因此对小文件的 OPS 和大文件的吞吐有比较高的要求。

面对这个挑战，文件存储需要一个并行的客户端、强一致缓存、后端服务端集群能提供分布式服务等技术要素。而 CFS Turbo 就是具备这三种要素的分布式并行文件存储。

除了腾讯混元大模型，谁是更新换代后的腾讯云存储产品的目标客户？

腾讯云存储总经理陈峥解释，腾讯的整个自研业务里，包括混元大模型，都是基于整个 AIGC 云存储的底座来构建的，其中包括 checkpoint 是基于 CFS Turbo 高性能写入的新架构，以及数据清洗基于对象存储 COS 和存储引擎 YottaStore 进行构建的。

陈峥没有透露云存储升级后的效率数据：" 从自研业务上看，我们的训练时间提升了 2 倍以上。外部客户来看，AIGC 清洗领域的一些创业公司应用了我们整个 AIGC 云存储的解决方案后，清洗、训练的效率也得到了提升，包括应对读写大带宽、高吞吐时，跑出实际业务的值已经超出我们当时的想象，确实提升有数倍之多。"

马文霜还补充，两年前腾讯发布 CFS Turbo 第一个版本时，读写吞吐量是 100GB（千兆字节），当时团队觉得这个读写吞吐量已经足够大，很多业务用不到，但 2023 年大模型出来后，用第一代 CFS Turbo 去写 checkpoint 时会发现 100GB 还远远不够，" 现在我们把吞吐量升级到 1 TB，也是希望让大模型用户能更快地加速训练，提升效率 "。

据马文霜介绍，目前已经有 80% 的头部大模型企业选择腾讯云 AIGC 云存储解决方案，包括百川智能、智谱 AI、元象科技等明星大模型企业。

不过，大模型企业不是腾讯云存储解决方案的单一客户，陈峥透露，除了 AIGC 领域，自动驾驶领域的应用案例不少。相比大模型，自动驾驶更侧重训练，在推理方面的要求偏少。当 AIGC 训练出模型后，目前一些 C 端（个人用户端）软件基于智能模型再去做推理实际应用输出，比如月之暗面公司的大语言模型 Kimi 是 To C（面向个人用户）的，自动驾驶更侧重在 B 端（企业用户端），通过路采数据做清洗、分割，再输送到整个自动驾驶训练场景，能够产生一些模型的数据，辅助车辆规避路障，最后实现自动驾驶。

因此，除了大模型企业，CFS Turbo 也被广泛应用于自动驾驶与工业仿真场景，包括博世汽车、蔚来等自动驾驶厂商，上海电气、深势等仿真场景，墨镜天合、追光等影视特效场景。

虽然同处在腾讯体系内，云存储和混元大模型如何协同，是外界十分关心的问题。比如，当混元大模型提出更高需求时，云存储作为其底座，是否需要 " 花费比较大的力气才能达成 "？

陈峥对此进行了否认，直言 " 还好，没有花很大的力气 "。

他解释，当客户提出 100GB 量级需求的时候，腾讯云已经在预估怎么去满足 200GB 甚至 500GB 等需求。如果客户给你提 100GB 要求时，我只能提供 100GB 的能力，产品的局限性已经存在了。

这时，马文霜还补充了一点他观察到的变化：" 今年第一季度，大模型企业在云存储的消耗同比增加了，可能是大模型企业拿到的投资更多了吧。"

" 云存储解决方案升级后，价格会涨吗？" 马文霜明确表示，" 价格没有变化 "。

宙世代

智慧云

相关标签