作者丨刘杨楠
编辑丨海腰
图源丨 CNBC
3 月 6 日,开源数据库龙头 MongoDB 遭遇上市以来最黑暗的一天。
当天公布 2025 财年第四季度报告和 2026 财年业绩预告后,略显悲观的数据预测引得 MongoDB 股价暴跌近 27%,估值缩水至 143 亿美元,较 195 亿美元的最高值跌去 50 亿美元。
华尔街的分析师们纷纷开始下调目标价格,但评级仍保持在 " 买入 " 或 " 持有 " 状态。分析师们之所以对 MongoDB 保持相对积极的态度,或许与前不久的一桩收购案有关。
2 月 24 日,MongoDB 宣布以 2.2 亿美元收购 Voyage AI,为这家成立仅 17 个月的明星 AI 公司写下一个暂时的句号。
Voyage AI 的故事短暂又辉煌,公司 2023 年 9 月成立,由清华姚班出身的天才学者掌舵,获 "AI 教母 " 李飞飞背书,共融资 2800 万美元,其发布的模型曾被数位 AI 大牛点赞。
正因如此,这笔收购让外界猝不及防,人们不禁好奇:这样一家技术过硬、团队顶尖且不缺投资者关注的明星初创企业,为什么会在成立仅 17 个月的时间选择被收购?
但从 MongoDB 今天的处境来看,这场收购中,Voyage AI 或许是更加被需要的一方。
戛然而止的天才创业故事
Voyage AI 的 17 个月可谓轰轰烈烈。
2023 年 9 月,斯坦福大学计算机科学家、清华大学 2012 届姚班校友马腾宇(Tengyu Ma)创办 Voyage AI,全明星阵容让人眼前一亮。
马腾宇自己的履历就足够惹眼。
2008 年,马腾宇在清华姚班毕业后,到普林斯顿大学攻读博士学位;博士二年级获得理论计算机方向的西蒙斯奖、IBM 博士奖学金、NIPS 最佳学生论文奖、COLT 最佳论文奖等多种奖项;博士毕业后,马腾宇到斯坦福担任助理教授,也正式开始研究 AI。
和马腾宇打过交道的人无一不称他为天才。他的博导教授曾预言," 如果他创业,未来一定会给全球科技带来崭新一页 "。2021 年,马腾宇拿下有 " 诺贝尔奖风向标 " 之称的斯隆奖后,"AI 教母 " 李飞飞不掩赞叹:" 真正的天才不该埋没在实验室 "。
于是,马腾宇创办了 Voyage AI。
公司成立后,马腾宇组建起了一支来自斯坦福、MIT、加州大学伯克利分校和普林斯顿大学的世界级 AI 研究团队,并邀请李飞飞担任学术顾问。
Voyage AI 的杀手锏就是通过其先进的嵌入和重排序模型,实现高精度检索能力,从而解决 AI 的幻觉问题。
嵌入模型是 RAG 系统的核心组件之一,可将文本数据转换为向量嵌入,以便在向量数据库中进行高效的语义搜索;重排序模型则在 RAG 系统中用于优化检索结果的相关性。
嵌入模型与生成模型非常相似,依靠强大的神经网络(通常基于 Transformer)架构来捕获和压缩语义上下文,封装文字、图片、音频等背后各种概念之间的复杂关系。早期在嵌入模型中封装越多的知识,并将其生成的信息反馈到下一代模型的训练中,就会使得下游的 RAG、搜索、推理系统更强大。
嵌入模型的训练难度也很大,需要在模型架构、数据收集、函数选择等方面多重考虑。
创业前,马腾宇已经带领团队在斯坦福人工智能实验室和麻省理工学院 NLP 小组进行了 5 年以上的研究,收集了海量数据集、进行预处理和后处理实验,以及开发专有方法以将对比学习应用于文本。
创业后,Voyage AI 发布还了多个系列模型,包括通用嵌入模型、代码检索嵌入模型、多模态嵌入模型。过去三个月,这些模型都升级到了最新的 3.0 版本。
这些模型能够从高度专业化的文本和非结构化数据(如法律文档、金融报告、企业知识库等)中提取语义信息,从而显著提高 AI 模型的准确性和可靠性。
为了让应用侧的企业直观感受到 voyage 系列模型的实力,Voyage AI 决定免费为每个组织嵌入前 5000 个文档 / 查询。
Voyage AI 的工作也受到很多技术大牛的认可。
Spot AI CEO Tanuj Thapliyal 就曾在 Linkedin 上发文表示,对马腾宇团队的工作成果感到很兴奋。" 在我们 AGI 的旅程中,无论上下文窗口的大小如何。嵌入模型(embeddings)和重排序器(rerankers)是组织世界上非结构化数据,并保持其有序性的最为关键的内核。"
种种 buff 叠加,也让 Voyage AI 颇受资本欢迎。
2024 年 10 月,Voyage AI 宣布完成 2000 万美元 A 轮融资,总融资额达到 2800 万美元。其中,风投公司 CRV 领投了本轮融资,参与者包括 Snowflake、Databricks、Pear VC、Tectonic Ventures 等,且 CRV 普通合伙人 Murat Bicer 也加入了 Voyage AI 的董事会。
Voyage AI 官网博客提到:" 通过这笔投资,我们旨在扩大我们的产品范围,并继续为您提供最先进的非结构化数据搜索和检索模型。"
但就在所有人都期待 Voyage AI 的下一个里程碑时,突然宣布了被 MongoDB 收购的消息。
意料之外,情理之中
2 月 24 日,开源数据库龙头 MongoDB 宣布收购 Voyage AI,估值 2.2 亿美元。
这时距离 Voyage AI A 轮融资仅过了 6 个月,距离公司成立仅 17 个月。从历史经验来看,AI 公司这么快退出的案例并不常见。
去年,乔治城大学安全与新兴技术中心在一项研究中分析了 2014 年至 2023 年的人工智能并购事件。研究发现,大型科技平台通常在人工智能公司成立后平均 4.8 年收购它们,而其他公司收购的人工智能公司平均成立 7.4 年,足以见得 Voyage AI 的 " 反常 "。
Voyage AI A 轮融资的领投方 CRV 也难掩遗憾," 对我们来说是较短的结局之一 ",CRV 合伙人 Murat Bicer 表示。毕竟业务更成熟时被收购,Voyage AI 或许会得到远高于 2.2 亿美元的估值。
从 CRV 的公开表态可以感受到,他们很看好 Voyage AI。
Bicer 曾直言,CRV 看重 Voyage AI 是一支非常强大的技术团队。" 目前,该领域(生成式 AI 领域)真正拥有数十年而非数年专业知识和经验的人非常少," 他补充道。" 当这些人在做某件事时,我们知道他们将以一种推动整个市场前进的方式进行创新。"
被收购前,CRV 已经在为 Voyage AI 提供业务方面的辅助,帮助其组建管理团队、制定上市战略并更好地协调定价。
然而,Voyage AI 的退出来得太快,CRV 许多努力仍在早期。但尽管如此,Bicer 依然将 Voyage AI 此次被收购描述为一个 " 非常圆满的结局 "。
事实上,这次收购也是情理之中。
仔细翻看 Voyage AI 成立时的官宣博客会发现,公司成立之初,团队就指出,实际应用场景中,嵌入模型性能与行业专有数据有强关联。
具体来看,在模型训练和性能评测环节,高质量数据集都是必备项。
MTEB(Massive Text Embedding Benchmark)是一个大规模的文本嵌入模型评估基准,能衡量文本嵌入模型在多样化任务上的性能。它包含 56 个数据集,涵盖 8 种任务类型,如文本分类、聚类、检索、语义文本相似度(STS)等,并支持超过 112 种语言。
但博客提出,MTEB 被 " 过度使用 " 了,有人会用评测集中的数据集直接给模型做训练,以此让模型在评测时有更好的表现,这也一定程度上折损了 MTEB 的公信力。为了进行更全面的评估,Voyage AI 自己构建了九个额外的数据集,且数据均来自 " 真实世界的行业领域 ( RWID ) ",涵盖了技术文档、餐厅评论和新闻报道等多种数据。
博客进一步写道:" 现实世界的场景总是比学术基准更具挑战性,因为每个行业都有其独特的术语和知识库,就像每个企业一样。" 以 Voyage AI 的模型 voyage-01 为例,Voyage 01 虽然开箱即用,但通过真实的业务数据微调,它就能以更低的成本变得更好。
Voyage AI 目前还针对编码和金融场景量身定制了嵌入模型,并正在扩展到更多领域。" 我们还可以在小型、未标记的公司特定数据集上微调嵌入,为 LangChain、OneSignal、Druva 和 Galpha 等试点客户实现 10-20% 的准确率提升。"
可见,想要嵌入模型在真实场景中有更好的准确性和相关性,很大程度需要与真实的运营数据深度集成。但对于医疗、金融等对数据安全要求极高的场景,企业通常不愿将业务数据随便提供给第三方厂商。马腾宇也表示:" 要让 AI 应用充分发挥其潜力,企业必须信任其输出,因此检索需要与运营数据深度集成,以确保准确性和相关性。"
因此,和 MongoDB 等有企业大量真实业务数据的企业合作,对 Voyage AI 而言无疑是事半功倍的选择。
但数据库企业那么多,为什么是 MongoDB?
MongoDB 或许更需要 Voyage AI
MongoDB 可谓 NoSQL 数据库中文档型数据库的 " 鼻祖 "。
大约从 1970 年起,此后二十多年一直是关系型数据库的天下。但传统关系型数据库在处理高并发读写、海量数据存储和非结构化数据时存在很大局限性。
直到 2007 年,关系型数据库来到转折前夜。
当时,Dwight Merriman、Kevin Ryan、Eliot Horowitz 三位工程师共同创办 10gen,初衷是打造一款面向开发者的 PaaS 产品,还拿到了超 8000 万美元的投资。
资金就位后,三人本计划找一个能够支持其 PaaS 产品的海量数据库。但当时成熟的数据库基本都是基于单机架构的传统关系型数据库,如 Oracle,MS SQLServer 等。即便 Oracle 支持一些集群部署,其扩展性也仅限于 2-4 台服务器。
于是,10gen 的创始团队决定直接自己开发一个数据存储服务,让所有数据都能被存储,并提供易用的 API,让开发者可以对数据进行常见的增删改查操作。
为便于开发者操作,Eliot 决定使用 JSON 作为数据格式进行存储。JSON 的数据在英文被称为 "JSON Document"," 文档数据库 " 的名字由此而来。
两年后的 2009 年 2 月,10gen 正式发布开源数据库 MongoDB 1.0,首次打破了关系型数据库的统治。
之后,10gen 在数据库的路上越走越远。2013 年 8 月,10gen 改名为 MongoDB,正式以 NoSQL 数据库为主业;2014 年,MongoDB 收购 WiredTiger 存储引擎,大幅提高 MongoDB 的写入性能。
2017 年 10 月,成立十年的 MongoDB 在纳斯达克上市。上市后,MongoDB 的市场表现也超出预期,市值最高一度达到 335.6 亿美元。
但就在 MongoDB 势头正盛的关头,开源、灵活的技术特色也给公司带来不少麻烦。
2017 年初,由于 MongoDB 数据库在默认配置下无需用户名和密码即可访问,使得大量黑客入侵了全球数万个 MongoDB 数据库,勒索用户交赎金才能恢复数据。
2018 年 10 月,MongoDB 又宣布将其开源许可证从 GNU AGPLv3 切换到服务器端公共许可证(SSPL)。一石激起千层浪,许多开发者和企业用户认为 SSPL 对商业用户不够友好,限制了软件的自由使用和分发。Linux 发行版(如 Debian 和 Fedora)甚至拒绝使用 SSPL 协议下的 MongoDB。
开源许可证变更后,AWS、IBM 和微软等云服务商们又纷纷推出兼容 MongoDB 的产品,以应对 MongoDB 的竞争。
不过,接连的风波并未伤及 MongoDB 的根本,他们仍在自己的节奏里不断优化产品。2018 年 6 月,MongoDB 推出多文档 ACID 强事务机制,意味着 MongoDB 能够支撑更复杂的数据操作,适用于更广泛的业务需求。
深圳钛铂数据创始人及 CTO、MongoDB 中文社区主席唐建法曾撰文总结了 MongoDB 的三条核心优势:
基于 JSON 的数据模型最接近开发者的面向对象的设计思维;
灵活动态的模型意味着在需求多变的时候极大简化数据库设计流程;
自动分片、多节点自动同步和跨中心能力支持各种现代化复杂部署需求。
目前,MongoDB 是全球最受欢迎的文档型数据库,在全球 100 多个国家和地区拥有超过 50000 个客户。因此,对于 Voyage AI 而言,MongoDB 确实是一个理想的合作伙伴。
然而,MongoDB 今天的处境却并不乐观。
疫情后,全球经济开始放缓,各企业 IT 支出相应缩减,加以 AI 冲击,MongoDB 往日的差异化优势逐渐被 AI 的光芒掩盖,Atlas 的新工作负载增长低于预期。
3 月 6 日,在 2026 财年业绩报告中,MongoDB 的全年预期也不乐观,预计全年收入在 22.4 亿 -22.8 亿美元之间,低于分析师预期的 23.2 亿美元;MongoDB 预计全年调整后的每股收益在 2.44-2.62 美元之间,远低于分析师预期的 3.34 美元。业绩预告发布后,MongoDB 股价下跌近 27%,和去年 509 美元的最高点也相去甚远,估值已缩水至 143 亿美元。
但尽管如此,收购 Voyage AI 对市场信心的激励作用已经开始显现。面对较为悲观的全年预期,多位高评级分析师仍对 MongoDB 给出 " 买入 " 或 " 持有 " 的评级。
接下来,MongoDB 将陆续与 Voyage AI 深度集成。
MongoDB CEO Dev Ittycheria 在博客中写道,Voyage AI 与 MongoDB 的集成将确保开发人员不再需要管理外部嵌入 API、独立向量存储或复杂的搜索管道。
"AI 检索将内置于数据库本身,使语义搜索、矢量检索和排名与传统查询一样流畅,"Ittycheria 解释道。集成本身将分三个阶段进行:
第一阶段,Voyage AI 的文本嵌入、多模态嵌入和重新排名模型将通过 Voyage AI 当前的 API 以及 AWS 和 Azure 市场广泛提供。
在第二阶段,MongoDB 将把 Voyage AI 的功能嵌入到 MongoDB Atlas 中,首先是针对 Vector Search 的自动嵌入服务,该服务将自动处理嵌入生成。" 随后将进行本机重新排名,允许开发人员立即提高检索准确性。"Ittycheria 写道。
在第三阶段,MongoDB 将添加先进的 AI 检索功能,并增强多模态能力。
" 我们还计划引入指令调整模型,让开发人员使用简单的提示而不是复杂的微调来优化搜索行为,"Ittycheria 解释说,并补充说它将通过在 MongoDB Atlas 优化 AI 应用程序时嵌入生命周期管理来进行补充。
AI 这艘时代巨轮,MongoDB 虽然不是上得最早的那个,却也找到了最有经验的船员,未来能否跑上快航道,就要交给时间决定了。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系 editor@cyzone.cn。
登录后才可以发布评论哦
打开小程序可以发布评论哦