全天候科技 12-24
下一个“AI卖铲人”:算力调度是推理盈利关键,向量数据库成刚需
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着生成式 AI 应用加速渗透,AI 基础设施软件(AI Infra)正成为应用落地的关键 " 卖铲人 ",算力调度能力已成为决定模型推理盈利水平的核心变量。

近期,申万宏源研究黄忠煌团队发布了深度报告《AI Infra:应用渗透下的又一卖铲》,报告指出基础设施软件正迎来黄金发展期。与模型训练阶段被巨头垄断不同,推理和应用部署环节为独立软件厂商打开了新的商业空间。当前两类产品最为关键:算力调度软件和数据类软件。

算力调度能力直接决定模型推理服务的盈利水平。根据测算,在单日 10 亿查询量下,若使用 H800 芯片,单卡吞吐能力每提升 10%,毛利率能够提升 2-7 个百分点。

数据层面,向量数据库已成刚需,Gartner 预测 2025 年企业 RAG 技术采用率将达 68%。海外数据厂商如 MongoDB 在 2024 年二季度收入增速出现明显拐点,验证了这一趋势。

算力调度:推理盈利的核心变量

AI Infra 指的是专门为 AI 工作负载的设计、构建、管理和优化的底层硬件与软件系统。 它的核心目标是高效、大规模地完成 AI 模型的训练和推理任务。如果将开发大模型比做是 " 造房子 ",那 AI Infra 就是 " 工具箱 ",包括构建、部署和维护人工智能 ( AI ) 系统所需的硬件、 软件和服务的组合。

国内模型价格战背景下,成本控制成为生死攸关的问题。Deepseek V3 官方定价仅为每百万 token 输入 2 元、输出 3 元,而海外同类产品价格普遍在 1.25-5 美元之间。这种显著的价格差异使得国内厂商对成本的敏感度远超海外。

大厂算力调度能力对比:

华为 Flex:ai 实现了异构算力统一调度,支持英伟达、昇腾及第三方算力,通过芯片级切分技术(精准至 10% 粒度),在无法充分利用整卡算力的场景下,可将平均利用率提升 30%。

阿里巴巴 Aegaeon 更进一步,实现了 token 级动态调度。通过 token 粒度的精细化调度、阶段化计算、缓存复用和弹性扩缩容,Aegaeon 将 10 个模型所需 GPU 数量从 1192 张锐减至 213 张,资源节约率高达 82%。这种 " 按 token 分拣 " 的实时调度方式,类似将快递分拣从 " 按批次 " 升级为 " 按单个包裹 "。

报告数据表明,算力调度软件已成为提升毛利率的隐形杠杆:

毛利率敏感性分析显示,假设模型推理服务商使用 H800 芯片,在单日 10 亿查询量场景下(日收入约 440 万元,年收入 16.06 亿元),当单卡吞吐从基准值的 0.6 倍提升至 1.4 倍时,毛利率可从 52% 提升至 80%。这意味着算力调度优化每提升 10% 的单卡吞吐,就能带来约 2-7 个百分点的毛利率改善。

这也解释了为何海外三大云厂商的云业务毛利率差异显著:2025 年三季度,谷歌云毛利率为 43.3%,微软智能云为 34.6%,而亚马逊 AWS 仅为 23.7%。随着 AI 大模型云收入占比持续提升,硬件调度能力对毛利率的影响将愈发关键。

向量数据库:RAG 应用的刚需基础

大模型幻觉问题催生了 RAG(检索增强生成)技术的快速普及。由于大模型无法直接记住大量企业私有知识,且缺乏外部知识时容易产生幻觉,RAG 成为企业部署 AI 应用的标配。Gartner 数据显示,2024 年全球已有 45% 的企业在智能客服、数据分析等场景中部署 RAG 系统,预计 2025 年这一比例将突破 68%。

报告指出,向量数据库的核心价值在于支撑海量数据的毫秒级检索。 在 RAG 应用推理流程中,系统需要先将用户查询转化为向量,然后在向量数据库中检索最相似的知识片段,最后将检索结果与用户问题一起输入大模型生成答案。这要求向量数据库能在亿级数据规模下保持高 QPS(每秒查询数)的实时检索能力。

OpenRouter 统计数据显示,从 2024 年四季度开始,从 API 接口接入各类大模型的 Token 消耗量快速增长,一年时间内翻了近 10 倍,直接拉动了向量数据库需求。

数据库格局重塑:OLTP 反攻,实时性为王

生成式 AI 时代,数据架构正从 " 分析优先 " 转向 " 实时运营 + 分析协同 "。传统数据仓库 / 湖仓架构设计目标是批量处理和事后洞察,但 AI 应用需要毫秒级响应,Agent 更需要持续获取实时数据并快速决策。这种高频、小批量、低延迟的实时事务处理需求,正是 OLTP(在线事务处理)数据库的核心优势。

报告指出,AI 时代数据架构从‘分析优先’转向‘实时运营 + 分析协同’ ...MongoDB 凭借‘低门槛 + 高弹性’,契合中小客户低成本 AI 落地需求,增长弹性突出。Snowflake 与 Databricks... 需应对 CSP 跨界竞争与实时能力短板。

具体来看:

MongoDB:低门槛切入中小客户市场

MongoDB 作为文档型 NoSQL 数据库,天然适配非结构化数据存储与高频实时 CRUD 操作。其收入增速在 2024 年二季度出现拐点,2026 财年一至三季度,核心产品 Atlas 收入增速分别为 26%、29%、30%,显著高于总体收入增速。

MongoDB 的竞争优势体现在三个方面:首先,其文档型设计摒弃了预定义表结构,以类似 JSON 格式存储数据,契合 AI 原生应用需求;其次,通过 2025 年 2 月以 2.2 亿美元收购 Voyage AI,补齐了向量检索能力,Voyage 的嵌入模型在 HuggingFace RTEB 测评中霸榜第一、第四和第五;第三,新推出的 AMP(应用现代化平台)帮助客户从传统关系型数据库迁移至现代文档数据库。

2026 财年三季度,MongoDB 毛利率达到 76%,预计年底经营利润率将达到 18%,全年营收增长率约 21%-22%,几乎接近 Rule of 40 标准(收入增长率 + 利润率≥ 40%)。

Snowflake 与 Databricks:向全栈工具延伸

以 OLAP 为核心的 Snowflake 和 Databricks 选择了不同的应对策略——向上下游纵向拓展。Snowflake 在 2025 年通过 Iceberg Tables 实现数据湖仓兼容,推出 Snowpark 支持 Python 等多语言,并提供 Cortex AI 和 Snowflake ML 等 AI 工具链。2025 财年收入达 36.26 亿美元,同比增长 29.21%,预计 2026 财年收入 44.46 亿美元。

Databricks 则在 2025 年 5 月以 10 亿美元收购无服务器 Postgres 解决方案提供商 Neon,补齐 OLTP 能力,随后推出 AI 原生数据库 Lakebase 和 Agent Bricks。其 2025 年年化收入超 48 亿美元,同比增长 55%,数据湖仓产品年化收入超 10 亿美元,净留存率超 140%。

两家公司凭借全流程工具链和客户粘性,占据金融、医疗等数据密集型行业核心场景。截至 2026 财年三季度,Snowflake 年消费超 100 万美元的高价值客户达 688 家,福布斯全球 2000 强企业中已有 766 家成为其客户。

GPU 主导存储架构:技术升级进行时

AI 推理进入实时化、PB 级数据访问的新阶段,存储 IO 正从 " 幕后支撑 " 变成 " 性能命脉 "。LLM 推理的 KV 缓存访问粒度仅 8KB-4MB,向量数据库检索更是低至 64B-8KB,且需要支持数千条并行线程的并发请求。

英伟达推出的 SCADA(加速数据访问扩展)方案实现了 GPU 直连 SSD,将 IO 延迟从毫秒级降至微秒级。该方案采用 "GPU- 交换机 -SSD" 直连架构,测试数据显示,1 颗 H100 GPU 的 IO 调度效率是 Gen5 Intel Xeon Platinum CPU 的 2 倍以上。

这要求向量数据库进行技术升级:采用 GPU 适配的列式存储、将检索算法改为 GPU 并行版本、自主管理 GPU 显存分配。这些技术演进正在重塑数据基础设施的竞争格局。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数据库 芯片 基础设施 申万宏源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论