从算力内卷到存力突围,一场有关企业 AI 基建的价值重估。
新眸原创 · 作者 | 桑明强
当全球科技巨头为 AI 大模型疯狂加码 GPU 算力时,一家头部券商公司却公开诉苦:费力搭建的 GPU 集群,利用率却始终卡在 30%,算力空转导致每月仅电费就是一笔不小的开销,核心瓶颈竟然是一块 " 看不见的短板 ":存储带宽。
这并非孤例——某车企自动驾驶团队在迭代模型时发现,因数据读写延迟过高,单次训练周期被迫延长 40%,直接拖慢产品落地进度。这些故事背后,揭示了大模型时代最隐秘的真相,存储正成为大模型落地的最大暗礁。
大模型训练场景下,数据集一般以文档、图片、音视频等非结构化数据为主,这些文件通常很小,在几十字节到几百 kb 级别,但数量庞大,大约几亿到几十亿量级,这就要求存储系统具有强大的元数据管理能力,用来支撑海量小文件的高吞吐。
据爱分析测算,在同等 GPU 算力规模下,存储性能差异可导致 3 倍模型训练周期波动。以 GPT-4 为例,它训练需处理超 100PB 数据,存储带宽要求 600GB/s,相当于每分钟填满 45 块 10TB 硬盘,而传统 4 节点存储集群仅能提供 24GB/s 带宽,差距达 25 倍。
在这种背景下,产业界陷入两难困局:既要支持千亿级参数 AI 大模型、TB 级带宽的 " 暴力吞吐 ",又要扛住 30 年数据留存、11 个 9 可靠性的 " 马拉松考验 ",还要满足国产化和市场的真实需求。
" 这中间的挑战其实非常大。" 京东云相关负责人告诉《新眸》,一方面,存储厂商需要跟主流芯片厂商以及国产操作系统相互兼容认证;另一方面,还要在全国产化环境里做到高性能、高稳定性和低成本,这背后意味着大量的对接、优化和自主研发工作。
这些问题也是眼下很多 CTO、CIO 焦虑的地方。尽管 DeepSeek 等模型能力让人振奋,也让外界看到了大模型落地千行百业的可能性,但摆在他们面前的,除了买 GPU、堆算力外,还要思考如何从存储端切入,为企业算清楚大模型落地和数字化的 " 经济账 "。
GPU 空转背后:一场被忽视的存储革命
存储成本就像是房间里的大象,所有人都看见,但没人敢动。据业内人士透露,有的企业光内部存储系统就采购了 5 套,每一套都需要单独维护,由于这些数据分散在不同系统,管理难度陡增的同时,也为后续数据价值挖掘平添了障碍。
一项调查显示,大模型训练中存储成本占比高达 10%-20%,但多数企业仍将其视为 " 必要损耗 "。拿一台 L3 级别的自动驾驶测试车来讲,平均每天产生 60TB 的数据,完整测试产生的数百 PB 数据需要存储 30 年以上。
存储成本居高不下,是大模型时代的一大痛点,症结在于缺少对数据的有效分层。传统存储方案下,为了保证企业生产活跃度和数据安全,通常需要做到 3 个副本,这也是导致存储空间利用率低的直接原因,类似问题在互联网、金融、医疗等行业普遍存在——冷数据占用大量资源,却鲜少被访问。
更别谈一些特定领域,它们对于存量数据的存储要求更为苛刻。比如政府电子档案要求保存周期为 5 年甚至更长,公检法司数据要求保存周期至少 30 年以上。
问题的复杂性在于技术门槛。要知道,大模型训练的本质是海量数据的处理与流动,过程中需要实时处理数百 PB 级数据,存储系统需同时满足千万级 IOPS、TB 级带宽、微秒级延迟。相比之下,传统解决方案往往顾此失彼:高端存储阵列性能达标但成本高昂;开源方案虽成本低,却面临稳定性问题。
"一定程度上,云海 AI 存储的出现填补了市场空白。" 据京东云相关负责人透露,这款历经京东 618、双 11 等复杂场景打磨的产品,以全自研统一分布式存储引擎为核心,实现 4K 随机写性能突破千万级 IOPS,平均延迟在 100 微秒级,并通过 1.1x 副本技术节省整体基础设施成本超 30%。
" 近几年市场对国产存储的关注度明显提高。" 尤其在大模型浪潮下,存储性能已从后台支持系统,跃升为 AI 生产力核心要素。一种主流观点认为,当参数规模突破千亿量级时,对存储的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来 3-5 年的 AI 进化需求。
在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅逐渐成为行业共识,国外的月亮不一定更圆,这也是云海 AI 存储为什么能在银行、证券、汽车、零售等领域广泛落地——它既能做到不输海外存储厂商的高性能、高可用性,还在于它是京东 100% 自研产品,核心技术完全自主可控。
自主可控:国产存储的 " 性能逆袭 " 密码
"每一个架构好在哪里、坏在哪里,我们有充足的底气来判断。" 京东云相关负责人告诉《新眸》,从 2012 年开始计算,云海 AI 存储在京东场景已经实践了超过 13 年。
作为下一代关键技术,存储是 AI 基础设施重要一环,也是国产化的重点,尤其对于金融、政务领域来讲。在这个背景下,核心技术是否自主可控将成为关键门槛,相比之下,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择;至于国内厂商,则需要验证其技术自主可控能力,以及产品与周边国产化生态软硬件系统的兼容性。
和传统分布式不同,云海分布式存储主要聚焦于 AI 训练和推理场景,而非仅限于数据处理。由于它采用完全自研的架构,而非基于开源平台," 每一行代码都是自己写的 " 使得云海在面对大规模数据存储和高性能需求时更具竞争力。事后来看,这是一条艰难但正确的选择。
事实上,除了京东云云海外,这些年国内发力 AI 存储并不在少数,但最终结果却反响平平,据业内人士透露,有的厂商费了大力气挖人、投入了大量资源,却至今未能推出成熟的产品。
这同时也是互联网厂商自研存储的难点所在,不仅要解决监控组件、数据库组件、工程化要求等第三方依赖问题,针对不同客户需求进行模块化单独输出,还要考虑到业界主流存储架构突变带来的风险性。
背后的考量与权衡不言而喻。回忆起打磨云海 AI 存储的那段经历,京东云相关负责人坦言中间也经历过很多内部的争论,比如数据保护的技术路线选择上,当时内部就选择覆盖写还是追加写时,讨论过很多次。
覆盖写作为业界主流的技术路径,相对来说开发难度、风险都比较小,但坏处是,在存储故障处理能力、包括故障后响应时延方面非常弱,而且性能也没法做到极致。综合考量下,云海 AI 存储最终选择了更有难度的追加写技术路径,为了让它有更高的稳定性,团队前后就存储架构优化方面又花了将近一年时间。
存力即战力
京东云云海如何改写存储经济账
当全球 AI 竞赛进入耐力赛阶段,存储价值正在从 " 后勤保障 " 升级为 " 核心战力 "。
拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和 GPU 的关系往往是紧密耦合的,一旦 GPU 集群出现闲置状态,就会导致极大的资源浪费。关于这点,业界有一个经典测算,如果 GPU 集群出现 5% 左右的闲置时间,其成本就相当于重建一套分布式存储集群。
云海的实践也验证了这一点——某自动驾驶公司通过存力优化,满足了该企业上百个 GPU 计算节点在模型训练过程中访问存储数据,并应对计算节点的高并发访问的需求,大大缩短了训练周期;某国有大行基于云海构建存力底座,采用统一分布式存储的方式,既满足大模型训练的海量数据存储需求,还有效降低了成本。
类似的故事也发生在某知名券商。为了支撑业务发展,该券商需要进行系统架构的全面云原生化升级,但问题在于,传统存储架构不够灵活,很难适应 " 小微化、高频化 " 的业务新模式,更别谈支撑业务系统快速上线、快速变更。
" 这恰恰是云海的独特优势所在。" 据京东云方面透露,基于云海分布式存储搭建的统一存储平台,该券商构建了超大规模数据湖,统一管理结构化与非结构化数据,在实现数据高效存储与流动的同时,存储平台还兼容多存储接口类型,真正做到与用户业务系统无缝链接。
荔枝 FM 内部曾经算过一笔账:4.5 亿用户音频数据若沿用传统 3 副本机制,年存储成本将是一笔巨额开销,而基于京东云自研云海存储系统,综合存储成本直降 30%,背后秘密在于京东云独创的冷热数据自动分层机制——热数据保留 3 副本保障毫秒级响应,冷数据则采用 EC 低冗余技术(1.1x 副本率),磁盘利用率直接提升至 90%。
值得一提的是,云海这套组合拳还能同步构建跨机架多节点容灾体系,实现每次读写自动多副本备份,支撑荔枝 FM4.5 亿用户的高品质音频服务零中断。在业内人士看来,大模型竞赛下半场,存力正从幕后走向台前,京东云云海通过性能、成本、自主可控的三重突破,不仅解决了企业的现实痛点,更重新定义了 AI 基础设施的价值链——存储系统的 ROI= 性能增益 + 成本节省 + 故障止损。
"国产存储崛起的关键不单单是性能、可靠性的比拼,更需要你站在未来思考。" 按照京东云相关负责人的判断,未来通用大模型解决用户所有需求的可能性较低,取而代之的是,将呈现多种应用化大模型根据用户场景并行使用的情况,随着 DeepSeek 等 LLM 的应用发展,后续推理的需求将持续走高,预计将远高于训练需求。
事实也的确如此,根据 IDC 发布的一份报告显示,全球数据将从 2018 年的 33ZB 增至 2025 年的 175ZB。而中国的数据总量也在全球首屈一指,调查数据显示,中国数据占全球数据比重正在从 2018 年的 23.4%,发展到 2025 年的 27.8%。
从这个角度来看,有关 " 存储经济学 " 的价值重构,已经成为企业 AI 战略的胜负手。
— END —
更多内容,点击下方关注
登录后才可以发布评论哦
打开小程序可以发布评论哦