钛媒体 2小时前
27个月,被骂骗子的公司成了印度deepseek
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文 | 硬唠 intalk

2026 年 3 月 6 日,Sarvam AI 把两个模型的权重文件上传到了 Hugging Face。

文件名是 sarvam-30b 和 sarvam-105b。任何人都可以免费下载,免费修改,免费部署。这是开源协议中最宽松的一种—— Apache 2.0,连商业使用都不设障碍。

没有发布会,没有倒计时直播。就是两个文件,挂在网上。

但对于理解这个动作的人来说,这两个文件意味着一件事:一家印度 AI 公司,从零开始训练出了一个在全球基准测试上有竞争力的大模型——然后把它送了出去。

这家公司走到这一步,用了两年半。中间有一个让全网嘲笑过的失败,有一笔让外界议论至今的政府交易,还有一个在公开羞辱发生后写下的、只有一句话的回应。

故事从 2023 年 12 月开始。

一、顶峰那天

2023 年 12 月 7 日,Sarvam AI 宣布完成融资。

4100 万美元,种子轮加 A 轮合并计算。领投方是 Lightspeed,Peak XV 和 Khosla Ventures 跟投。按照 TechCrunch 的说法,这是印度 AI 创业公司在这个阶段完成的最大单笔融资。

公司成立刚好五个月。员工总数约 18 人。

没有人知道这家公司之前做过什么——它是从隐身模式直接跳出来宣布融资的。但投资人显然不需要更多时间判断。Peak XV 和 Lightspeed 在种子轮时不到一周就拍了板。Khosla Ventures 创始人 Vinod Khosla 在声明里说:" 我们需要像 Sarvam 这样的公司,为印度、在印度构建 AI 的深度能力。"

让他们下这么快决定的,是两个创始人的简历放在一起之后产生的化学反应。

Pratyush Kumar,IIT Bombay 本科,ETH Zurich 博士,之后在 IBM Research 和 Microsoft Research 做研究员,再后来回到 IIT Madras 做教职。他在学术圈发表了 89 篇论文,但更重要的履历是另一个身份:AI4Bharat 联合创始人。这是一个专注于印度语言 AI 的开源研究计划,背后站着印度数字基础设施的主要缔造者 Nandan Nilekani。

Vivek Raghavan,IIT Delhi 本科,卡内基梅隆博士。毕业后在 EDA 行业做了整整二十年,做到 Synopsys 的副总裁级别。然后他做了一个不太符合职业逻辑的选择:回印度,去 UIDAI ——那个负责 Aadhaar 身份证系统的政府机构——做生物识别基础设施,一做就是十二年。Aadhaar 今天覆盖了超过十亿印度人,是全球最大规模的数字身份系统之一。Raghavan 是这套系统底层技术的参与建设者。

两个人在 AI4Bharat 相遇,2023 年 8 月一起创办了 Sarvam。

他们看到的机会,和 ChatGPT 在 2022 年 11 月出现有直接关系。不是因为要复制 ChatGPT,而是因为 ChatGPT 的出现让一件事变得显而易见:语言模型正在成为新的基础设施,而这套基础设施如果只懂英语,对一个有二十二种官方语言、大多数人口不以英语为母语的国家来说,意味着一种结构性的排斥。Raghavan 在融资公告里说了一句话:" 我亲眼见证过在基础层创新、并在人口规模上部署的巨大价值。" 他指的不是抽象的愿景,而是 Aadhaar。

这就是 VC 在不到一周内决定投资的原因:这不是两个在硅谷学了几年深度学习就回来创业的人,而是两个真正在印度数字基础设施最深处工作过的人,在 AI 范式切换的时间节点上,做了一个在他们背景下极为自然的选择。

融资公告发出之后,Sarvam 承诺的事情很简单:造一个印度自己的 AI。

但 " 印度自己的 " 这几个字,比他们预想的要难兑现得多。

二、第一个滑坡

拿到钱之后,Sarvam 的第一步走得相当稳。

2024 年 2 月,微软 CEO 纳德拉访印主持 AI Tour,宣布将与 Sarvam 合作开发印度语音 AI 工具,并将 Sarvam 的印度语音大模型上线 Azure。2024 年 6 月,世界经济论坛把 Sarvam 列入 Technology Pioneers 2024 名单——全球 100 家,印度 10 家,Sarvam 在列。2024 年 10 月,公司发布了第一个公开模型 Sarvam-1:20 亿参数,支持 10 种印度语言,在部分印度语言任务上的表现超过了规模更大的全球模型。

媒体的描述越来越顺滑:印度 AI 的国家队、主权模型的希望、下一个 DeepSeek。

但有一件事,在这段时间里悄悄积累了压力。

2025 年 4 月 26 日,印度政府在 67 家申请机构中选中 Sarvam,承接 IndiaAI Mission 的主权大模型项目。这是一笔条件特殊的交易:政府提供算力—— 4096 块 NVIDIA H100,使用期六个月,托管在 Yotta 数据中心——换取 Sarvam 的股权。算力的总账单是 2.47 亿卢比,政府补贴其中的 9868 万卢比,剩余部分由 Sarvam 承担。

合同的核心要求只有一条:模型必须从零训练,完成后开源。

这是 Sarvam 第一次真正拿到足以训练主权模型的算力。

按理说,接下来的动作应该是埋头去做那件一直承诺的事。

但 2025 年 5 月 23 日,Sarvam 发布了 Sarvam-M。

Sarvam-M 是一个 240 亿参数的混合模型,支持 10 种印度语言,针对数学和代码任务做了强化训练。发布公告里列了一串基准测试数字,措辞是它在 " 多项指标上与全球领先模型相当 "。

问题不在于这些数字是否属实。问题在于模型的底座:Sarvam-M 建立在法国公司 Mistral 的开源模型 Mistral Small 之上。Sarvam 的工程师在这个基础上用印度语言数据做了大规模的后训练。这是一种在资源受限条件下相当务实的选择,业界也有不少成功先例。

但它不是从零训练的主权模型。

名字里的 "M",代表 Mistral。这不是外界的解读,而是媒体报道中普遍流传的说法,Sarvam 没有公开否认。一家宣称要造 " 印度自己的 AI"、刚刚拿到政府主权模型合同的公司,交出的第一个成果,用的是法国人的底座。

逻辑上可以解释:政府的 H100 算力 4 月底才到位,Sarvam-M 的开发应该在此之前已经进行了相当长时间;发布 Sarvam-M,是为了给开发者提供一个可用的工具,同时为从零训练积累数据管道和后训练经验;这是一个过渡性产品,不是最终答案。

这些解释都站得住脚。但对于外部观察者来说,一个从零训练的承诺,和一个建立在 Mistral 底座上的发布,之间的距离是真实存在的。

而在接下来的二十四小时里,这个距离被放大到了所有人都看得见的程度。

三、23 个下载量

2025 年 5 月 24 日,Sarvam-M 上线两天后,Menlo Ventures 投资人 Deedy Das 在 X 上发了一条帖子。

内容不长,但足够精准:印度最大的 AI 创业公司,估值十亿美元的 Sarvam,刚刚发布了它的旗舰大模型。上线两天,Hugging Face 下载量:23 次。作为对比,他附上了另一组数字——两名韩国大学生做的开源模型 Dia,上个月的下载量:约 20 万次。

最后一个词:「丢人」。

这条帖子的转发量在几小时内突破了印度科技圈的日常阈值。不是因为它特别刻薄——它确实刻薄——而是因为它把一个让很多人隐隐不安的问题用数字说出来了:印度的 AI,到底在哪里?

批评很快分成了几个方向。

技术路线的质疑最直接:基于 Mistral 微调,在 IndicLLM 基准上的得分仅比原始 Llama 高出 0.02,这是 Sarvam 值得骄傲的成绩吗?有开发者在 X 上贴出了对比数据—— Sarvam-M 0.49,Llama 原版 0.47,Gemma 0.48 ——然后问:这是 " 可感知的提升 " 吗?

生态批评则更结构性。有投资人指出,印度没有了 Koo 这样的本土社交平台,Sarvam-M 缺乏一个天然的早期用户反馈场,下载量低不只是模型的问题,是整个生态的问题。也有人算了另一笔账:印度 H100 极度稀缺,出口管制压力持续存在,在这种资源约束下,Sarvam 能交出一个可用的 24B 印度语言模型,本身就不是一件容易的事——用 Hugging Face 几小时的统计数据来定性一个项目,是在刻意误读。

支持的声音里最有分量的,来自 Zoho 联合创始人 Sridhar Vembu。他在 X 上写道:" 我们做过的每一个产品,没有一个一开始就是爆款。"

但外界争议如何,Sarvam 的公关部门选择了沉默。

真正开口的,是 Pratyush Kumar 本人。

他在 X 上转发了批评帖子,写了一句话:「很高兴收到大家对 Sarvam-M 的反馈,请继续。等我们开始训练主权模型的时候,这些都会用上。」

这句话值得细读。

他没有辩解 Sarvam-M 的技术选择,没有解释为什么用了 Mistral 底座,没有反驳下载量数字,也没有指责批评者不懂印度的资源限制。他做的事情是:把一次公开羞辱,原地转化成了一个公开宣言。" 等我们开始训练主权模型的时候 " ——不是 " 如果 ",是 " 等 "。不是 " 我们将来考虑从零开始 ",是 " 我们正在开始 "。

这句话发出的时间是 2025 年 5 月 25 日,距离 Sarvam-M 发布过去了四十八小时。

此后的几天里,Sarvam-M 的 Hugging Face 下载量从 23 个反弹到 334 个,然后继续缓慢爬升。不是什么了不起的数字,但至少证明最初的统计确实是因为 Hugging Face 数据延迟造成的偏差,而不是真实的用户冷漠。

但数字的反弹并不是这个插曲真正的结局。

真正的结局,发生在八个月之后。届时,曾经在 X 上写下「丢人」的那个人,会主动发文说:"I was wrong."

但那是后话。

2025 年 5 月,Sarvam 需要面对的现实是:政府的 4096 块 H100 已经就位,承诺从零训练的合同已经签署,外界的嘲讽已经变成了历史记录。接下来没有别的路,只有一条。

四、4096 块 GPU,重新开始

让我们回到那笔交易本身。

4096 块 NVIDIA H100,六个月使用期,托管在孟买郊外的 Yotta 数据中心。总账单 2.47 亿卢比,政府补贴其中的 9868 万卢比。作为交换,Sarvam 让出了一部分股权,训练完成的模型必须开源。

这是印度政府在 IndiaAI Mission 框架下签下的第一批主权模型合同之一。67 家机构参与申请,最终四家入选:Sarvam、Gnani.ai、Gan.ai 和 Soket AI Labs。Sarvam 拿到的算力分配是四家中最大的一块。

从外部看,这是一笔对 Sarvam 极为有利的交易:政府出钱补贴算力,Sarvam 用政府的 GPU 训练模型,训练完开源,政府拿一点股权。性价比高得有些不真实。

但这笔交易的另一面,是一个约束。

开源意味着 Sarvam 不能把这个模型变成护城河。股权意味着政府成了 Sarvam 的股东,这个身份在任何国家都意味着某种隐性的期待和潜在的干预空间。算力是政府补贴的,但账单的剩余部分——超过 1.5 亿卢比——要 Sarvam 自己承担。对一家年收入只有 2910 万卢比的公司来说,这个数字意味着巨大的财务压力。

更深的约束是时间。六个月,4096 块 H100,目标是一个从零开始、在全球基准测试上有竞争力、同时精通印度语言的大模型。

在全球 AI 军备竞赛的背景下,这是一个听起来有些冒险的赌注。2025 年初,OpenAI 的融资总额已经超过 180 亿美元。DeepSeek 用相对有限的资源训练出了震惊业界的 R1,但它背后是中国成熟的 AI 基础设施生态。Sarvam 的 114 名员工,要在一个 GPU 基础设施还不完善、训练数据需要自己从头整理的国家,完成这件事。

他们的回答,是从基础设施开始做起。

Sarvam 的工程师首先重新设计了 tokenizer ——这是大模型处理文字的最底层组件。现有的主流 tokenizer 对印度文字效率极低,处理梵文、泰米尔文、孟加拉文这类非拉丁字母体系时,需要消耗比英文多出数倍的 token。Sarvam 重新训练的 tokenizer,对印度文字的处理效率提升了三到四倍。这一步没有任何可见度,不会出现在发布会的 PPT 上,但它决定了后续所有训练的成本和效率。

数据管道是另一个自建的基础设施。Sarvam 在内部搭建了一套评估数据质量的工具,从头整理训练语料。最终用于预训练的数据量,30B 模型约为 16 万亿 token。这些数据的收集、清洗、标注,全部在印度国内完成。

强化学习基础设施也是自研的。这个环节决定了模型在推理任务上的最终表现,也是 DeepSeek-R1 让业界重新注意到的核心技术路线。Sarvam 选择了同样的方向,并把整套训练流程完整地跑了一遍。

2025 年下半年,Sarvam 几乎没有对外发声。

公司账面上的年收入是 2910 万卢比,折合约 350 万美元。这是一个健康的早期创业公司收入,但在大模型训练的语境下,这个数字说明 Sarvam 几乎没有任何财务缓冲。他们在用一家小公司的资源,做一件通常需要十倍体量才敢启动的事情。

对外沉默的背后,是一支 114 人的团队在训练一个他们自己也不确定能否成功的模型。

五、14 天,14 次发布

2026 年 2 月 1 日,Sarvam 开始了一场密集的公开攻势。

策略是刻意设计的:在 India AI Impact Summit 召开前的两周,每天发布一个新产品或新功能,连续十四天不间断。语音识别模型 Saaras V3、文字转语音模型 Bulbul V3、文档数字化工具 Sarvam Akshar、多语言内容创作平台 Sarvam Studio ……一个接一个,节奏像节拍器一样准确。

这个策略有一个明显的参照对象:OpenAI 在 2024 年末的 "12 Days of OpenAI" 发布攻势。Sarvam 把它改成了 14 天,因为峰会日期决定了窗口长度,但逻辑是一样的——用密集的发布节奏制造舆论动能,让媒体和开发者在峰会开幕之前就持续关注这家公司。

在峰会开幕前的密集发布期间,有一件事悄悄发生了。2 月 7 日,Sarvam 发布 Bulbul V3 语音合成模型当天,Deedy Das ——那个在 2025 年 5 月写下「丢人」的人——主动在 X 上发了一篇帖子,开头三个字:"I was wrong." 他说,他一年前认为训练小型 Indic 语言模型的方向是错的。" 但他们做到了转变。他们有 Indic 语言最好的语音合成、语音识别和文字识别模型,这是真正有价值的东西。" 从「丢人」到 "I was wrong",八个月,触发转变的不是大模型,而是一个语音产品。

2 月 16 日,峰会开幕展览日。

印度 Modi 总理在 Bharat Mandapam 的展览区走了一圈。他在 Sarvam 的展台前停下来,试戴了一副黑色眼镜。这副眼镜叫 Sarvam Kaze,是 Sarvam 研发的 AI 智能眼镜原型,支持十种以上印度语言的实时语音交互,Pratyush Kumar 在 X 上发了一张 Modi 戴着眼镜的照片,配文只有一句:「第一个试戴的人?总理。」

这张照片的传播速度,超过了 Sarvam 过去两年所有发布的总和。

2 月 18 日,Research Symposium,Sarvam 正式发布 Sarvam-30B 和 Sarvam-105B。

两个模型,都从零训练。30B 模型预训练用了约 16 万亿 token,支持 32000 token 的上下文窗口,MoE 架构下每次推理只激活约 10 亿参数,推理成本大幅压缩。105B 模型支持 128000 token 的超长上下文,在 AIME 25 数学竞赛基准上得分 88.3,使用工具后达到 96.7;MMLU 得分 90.6;Math500 得分 98.6。

Pratyush Kumar 在台上说,105B 在多项推理基准上超过了 DeepSeek-R1 ——而 DeepSeek-R1 的总参数量是 6000 亿,是 Sarvam-105B 的近六倍。

批评在几小时内又来了。

有人在 X 上翻出了 Sarvam-105B 的架构配置文件,指其为 "DeepSeek 的山寨缩水版 "。有帖子把配置文件扔进 ChatGPT,得到的描述是 "Mini DeepSeek-V2 风格模型 "。这个截图被广泛转发。对于刚刚经历过 Sarvam-M 事件的人来说,这个指控听起来似曾相识——上次是法国人的底座,这次是中国人的架构。

Pratyush Kumar 的回应比上次更直接。他在 X 上写道,团队欣赏 DeepSeek 的研究,也从中学习,但 Sarvam-105B 是用更小的规模做到了这些结果。一名 Sarvam 工程师补充:公司所有模型都是从零训练的基础模型,没有例外。

这场争议的实质,是一个在 AI 领域反复出现的认知误区:架构和模型是两件不同的事。架构是蓝图,是发表在学术论文里供所有人使用的设计方案;模型是训练的产物,是数据、算力和工程决策共同生成的结果。

Sarvam 借鉴了 DeepSeek 在 Multi-head Latent Attention 和 Mixture of Experts 上的架构设计,正如 DeepSeek 借鉴了 Transformer,正如 Transformer 借鉴了注意力机制的早期论文。这是这个领域一直以来的运作方式。

2 月 20 日,Sarvam 发布了面向普通用户的对话产品 Indus,登陆 App Store 和 Google Play。这是 Sarvam 第一次走出开发者和企业市场,直接面对消费者。

峰会结束了。距离 3 月 6 日开源,还有两周。

尾声

2026 年 3 月 6 日,Sarvam 把模型权重传到了 Hugging Face。

没有发布会,没有倒计时直播。文件名 sarvamai/sarvam-30b 和 sarvamai/sarvam-105b,Apache 2.0 协议,商业使用不设障碍。同一天,模型也上传到了印度政府的 AIKosh 平台。

Pratyush Kumar 在 X 上写了一段话:「开源 Sarvam 30B 和 105B。从零训练,所有数据、模型研究和推理优化全部在内部完成。这些模型在大多数全球基准测试上表现突出,同时在印度语言上表现卓越。」

这句话里有一个词值得停下来看一眼:"all done in-house",全部在内部完成。不是 Mistral 的底座,不是借来的架构实现,是一支 114 人的团队,在一个 GPU 基础设施直到最近才勉强够用的国家,自己搭建 tokenizer、自己整理数据管道、自己写强化学习基础设施,从头到尾跑完了一遍。

从 2023 年 12 月那场 18 人公司的融资发布会,到这两个文件挂上 Hugging Face,中间过去了二十七个月。

这二十七个月里发生的事情,放在任何一个叙事框架里都可以讲得通:可以是一家公司如何在公开羞辱中找回初心,可以是印度国家意志如何通过一纸算力合同把一家创业公司绑上主权叙事的战车,也可以是两个深度参与印度数字基础设施的人,在 AI 范式切换的时间节点上,做了一次代价高昂但方向正确的押注。

这些叙事都是真的,也都是不完整的。

Sarvam 现在面对的问题,比两年前更难回答:开源之后呢?当模型权重免费可得,公司的商业护城河在哪里?当全球大模型开始认真处理印度语言,Sarvam 的差异化还能维持多久?政府成为股东之后,商业利益和公共利益之间的张力,迟早会在某一个具体决策上显现出来。

这些问题,2026 年 3 月 6 日那天没有答案。

但那两个文件已经在网上了。任何人都可以下载,任何人都可以修改,任何人都可以拿去用。

这是 Sarvam 最初承诺的那件事。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 印度 融资 创始人 本科
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论