资源耗费减少90%，云器Lakehouse助力这家SaaS公司实现数据平台升级

数据业务已经成为头部 SaaS 厂商新的增长引擎。

Salesforce 最新财报显示，Data Cloud 业务年度营收达 9 亿美金，年度同比增长 120%，远远高于 11% 的整体营收增速。Salesforce CEO 在电话会议表示，Data Cloud 是有史以来增长最快产品，是 2025 财年焦点产品。国内市场，智能销售 SaaS 厂商探迹科技已经将数据能力作为核心竞争力，基于 1.8 亿市场主体的全量数据为企业提供智能销售服务，数据正在释放巨大业务价值，这对数据平台提出了更高要求。

数据服务能力成为 SaaS 厂商的必备能力

以 DeepSeek 为代表 AI 大模型爆火后，越来越多 SaaS 厂商将 AI 能力融入到产品服务中，研发以 AI 大模型为核心能力的智能化产品。以探迹科技为例，探迹科技推出了销售大模型 " 探迹 SalesGPT"、电商全流程 AI Agents 平台 " 探域电商智能体 "，面向营销、获客、售后客服等场景。

在实际落地中，由于 AI 大模型存在 " 幻觉 " 等问题，例如生成与事实不符的内容，导致智能产品在没有高质量知识库和数据支撑下难以精准服务。这使得数据质量、知识库构建、工作流稳定性成为智能化场景成功落地的关键前提。

同时，SaaS 产品正深入到企业用户的业务场景中，企业用户越来越多的业务数据运行在 SaaS 平台。探迹销售云产品覆盖了企业用户从寻找客户、联系客户到管理客户的全销售流程，这使得企业用户对探迹科技的数据服务能力提出更高要求，不仅仅是简单的数据看板，而是希望获取实时、深度加工后的数据，辅助业务决策。

以上两方面因素使得 SaaS 厂商必须持续增强数据服务能力，满足诸多企业用户不断涌现的数智化新需求。

SaaS 厂商数据平台面临三大问题和一大隐性需求

数据服务能力的底层需要有一套强大的数据平台支撑，而大部分 SaaS 厂商早期都是基于开源框架组件自建的数据平台，如 Spark、Flink 等。伴随业务增长，自建数据平台能力越来越跟不上业务发展需求。成立于 2016 年的探迹科技，在服务客户数量从数千跃升至超过 3 万家后，这些自建平台在资源扩展性、维护复杂度、数据更新频率等方面逐渐无法满足业务快速演进的需求。例如，企业对探迹数据服务产品的要求从之前的天级别更新提升至小时级更新，这对数据实时性提出非常高的要求。

探迹科技最初的数据平台是基于 Lambda 架构，采用离线实时混合处理的设计思路。这套架构体系，灵活支撑了早期的业务快速发展，但随着业务的快速发展，数据量越来越大，业务加工逻辑越来越复杂，业务对数据时效性要求越来越高，数据质量要求越来越高，这种数据处理架构越来越面临处理瓶颈和挑战。

首先是数据实时性问题。探迹的业务场景是大规模数据量的高频更新，同时业务逻辑计算非常复杂，如果全部数据和业务转化为实时加工，成本无法承受。只有少量数据采取实时处理，大部分数据是离线加工，根据业务逻辑分成天级别、周级别、月级别加工。

其次是数据一致性问题。同一个业务，采取离线处理全量的数据和业务逻辑，实时链路处理部分核心数据和精简后的逻辑，数据和逻辑的差异必然带来数据的不一致问题。为了减少数据不一致问题的影响，只能定期刷新离线全量加工后的结果到线上，刷新周期包括天级别、周级别、月级别，但这只能缓解不一致问题，无法根治。

第三是数据运维管理问题。" 离线 + 实时 " 双链路架构都有自己的运维方式，开发方式和使用方式，从而增加了运维成本和学习成本。探迹科技自身业务特点对数据质量要求很高，当前的数据质量管理主要依赖人工干预，人工排查依赖经验管理，定位慢，排查时长久，难以实现数据全生命周期的有效管理。

除了上述三大问题，探迹科技这类 SaaS 厂商还有一个隐性需求，全托管数据平台替代自建数据平台。数据服务能力是探迹科技的核心能力，但数据平台不一定需要自建，如果数据平台能够实现专业化全托管，SaaS 厂商可以将资源更聚焦投入到数据产品开发等业务。

这对于探迹科技这类中型企业而言，数据平台全托管意味着一方面有数据平台厂商不断融入新技术，自身能够以较低成本享受到数据平台新技术红利，另一方面能够以比较可控的数据团队资源支撑不断增长的业务。

然而，实现数据平台全托管不仅仅是技术问题，还涉及到企业与数据平台厂商的合作机制等问题。因此，探迹科技当前重点是解决前面三大问题。

以增量计算为基础的新一代数据平台，实现数据低成本大规模实时处理、降低运维管理难度

最近两年，增量计算引擎兴起，实现了数据计算模式的统一，即批、流、交互为一体。以云器为代表的新一代数据平台厂商，基于增量计算为基础，推出了基于 Single-Engine 理念的新一代数据平台 Lakehouse，既能支持结构化数据处理分析，也能和 AI 能力结合，支持对非结构化进行管理和分析。

针对数据实时性问题，基于增量计算、资源弹性扩展等技术，新一代数据平台 Lakehouse 能够实现全域数据低成本加工，数据开发成本由之前的全量加增量成本变成仅全量成本，极大降低计算成本。以探迹为例，引入 Lakehouse 后，在相同业务场景下，资源消耗降低了 18 倍。原本依赖 Spark 的离线全量任务，每日消耗上千 CRU，迁移至增量引擎后，每日仅需约 50-60 CRU，计算成本实现数量级优化。同时，增量计算任务能够根据探迹业务需求灵活设置数据刷新频率，无需修改代码，实现数据及时性的精准控制，实现数据加工成本可控。

从 " 离线 + 实时 " 两条链路升级成一条实时链路，仅需一份代码即可处理完整数据与全量逻辑，彻底解决数据不一致问题。开发团队无需在两套系统之间切换，减少至少 30%-50% 的开发和运维负担，使数据团队可以集中资源投入在更具业务价值的产品创新上。同时，每张表的变化都有历史记录，可以查询任何历史时间点的数据，实现了数据问题快速排查和数据便捷恢复。

基于一份代码、一条链路的新一代数据平台 Lakehouse 能够极大程度降低数据团队的数据开发、运维管理难度，同时能够沉淀数据开发、运维经验，为后续智能化开发运维奠定基础。

叠加大模型能力，新一代数据平台实现数据开发运维智能化

智能化是所有 SaaS 厂商产品服务发展方向，智能化落地同时需要结构化数据和非结构化数据支撑，" 大模型 +RAG" 应用非常依赖于知识库等非结构化数据，这对于 SaaS 厂商带来了全新挑战，如何同时纳管结构化数据和非结构化数据。

新一代数据平台 Lakehouse 是湖仓一体平台，数据湖仓可以把结构化数据（比如数据库里的表格）、半结构化数据（比如 JSON 文件）和非结构化数据（比如文档、图片、视频）统统整合起来，形成一个统一的数据平台。其 " 湖 " 的能力实现对非结构化数据的存储与管理，能够充分挖掘非结构化数据价值，实现了 "Data Ready for AI"。

大模型已经在代码生成领域取得一定效果，成功经验可以复制到数据开发运维领域。结合大模型能力，基于新一代数据平台能力，SaaS 厂商未来可以实现数据开发运维智能化。

数据运维场景，结合 AI 大模型、Agent 等技术能力，通过数据平台上的运维案例积累，未来可以针对不同业务场景实现数据自动化索引、编排、优化。

数据开发场景，平台能够基于历史经验，对数据开发人员的 SQL 语句编译优化，提升数据开发效率。

数据分析场景，通过 AI 大模型技术，让不懂 SQL 的业务人员也可以直接用自然语言交互，内置的指标体系大模型可以把业务语言转换成 SQL 查询业务结果，并展示为报表或图像。

宙世代

一起剪

相关标签