撰文 | 郝 鑫
编辑 | 吴先之
大模型也不得不脱下孔乙己的长衫。
在乡亲们的第一堂 AI 工具课上,尽管他们不知道腾讯元宝为何物,但表现得极为踊跃," 能劝和婆媳吵架不 "" 娃不肯结婚咋办 "。就在几百米外,墙上刚刷上 " 母猪产后护理,问腾讯元宝 " 的广告语。
阿里通义千问也跟养猪较上了劲儿,从体温检测、饲料配比到疾病预警,号称要用算法掌控每只猪的一生。在同一片土地上,有人利用通义千问开发 " 农业农村法律政策 " 大模型,还有人在通义千问的基础之上精调出 " 水稻种业 " 大模型。
各行各业对大模型的渴望远超想象,开源的 DeepSeek 和 Qwen 成为了主要的推动力量之一。据统计,2025 年上半年,有 196 个超 10 万元的 DeepSeek 政企项目在全国铺开。没有花活儿,"DeepSeek+Qwen" 落地教育、医疗、政务等领域成为了最优解。
从城市实验室到农村田头,通义千问们 " 下乡 " 的背后,一方面充斥着大模型公司验证场景和商业化路线的急迫性,另一方面也挤满了怕被时代抛弃的人们。
中国大模型有专属于自己的道路,既要跻身于一流,也要接地气儿。进一步可拆解为,在国际榜单上 Kill 对手,在业务上吃掉客户。
榜单无限游戏
大模型哪家强,榜单成绩说了算。
DeepSeek-R1 的出圈给了人们最直观的感受,中国大模型也扬眉吐气了一回,有底气和 OpenAI、Anthropic 这类绝对头部一决高下。
DeepSeek 用低成本和高效率,实现了 R1 在数学、代码自然语言推理等任务上,性能比肩 OpenAI o1 正式版,DeepSeek-R1 也由此成为了衡量国内大模型的 " 试金石 "。
阿里通义千问早在 2023 年就走上了开源的路线,拥有国内最全尺寸、模态的大模型全家桶和完备的生态。从最初对标 LIama 系列到超越 DeepSeek-R1 和 OpenAI o1,开源的阿里 Qwen3 迎来了自己的高光时刻。
今年 4 月 29 日,阿里正式开源通义千问模型 Qwen3,其参数量仅为 DeepSeek-R1 的 1/3,部署成本仅是满血版 R1 的 25%-35%。在模型部署成本大幅降低六到七成的情况下,Qwen3 超越了 R1、OpenAI-o1 等全球顶尖模型。
Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下当时所有国产模型及全球开源模型的性能新高。
具体来看,在奥数水平的 AIME25 测评中,Qwen3 斩获 81.5 分,刷新开源纪录;在考察代码能力的 LiveCodeBench 评测中,Qwen3 突破 70 分大关,表现甚至超过 Grok3;在评估模型人类偏好对齐的 ArenaHard 测评中,Qwen3 以 95.6 分超越了 OpenAI-o1 及 DeepSeek-R1。
可以说,在一段时间内,Qwen3 顺利完成了 DeepSeek-R1 的接棒。我们了解到,很多企业面临无法激活满血版 R1 的情况,因此全尺寸、全模态的 Qwen3 系列成为了落地场景的选择。更多情况下,企业选择两者都要,Qwen3 与 R1 优势互补,被打包进垂类场景解决方案里。
据智能超参数统计发现,性能突出且开源的 DeepSeek、Qwen 等开源大模型的出现,一定程度上改变了金融机构的采购重心,给大模型 To B 行业带来了改变。此外,DeepSeek、Qwen 开源后,还导致了算力采购需求的激增,这都从侧面证明了模型能力的重要性。
聚光灯之外,对标 OpenAI,通义千问还做了很多动作来弥补 Qwen3 的不足:通义实验室 RAG 团队开源了 WebDancer 模型,可从零训练一个 DeepResearch 类智能体;开源 WebSailor 模型,增强网页检索和复杂推理能力。
榜单即战场," 红皇后效应 " 日益凸显,为了保持排名,玩家必须不断奔跑。DeepSeek-R2 蓄势待发,沉寂已久的 MiniMax 和 Kimi 紧随其后。模型榜单排名游戏似乎没有终点,技术迭代、榜单扩容、评测维度变化,让 " 第一 " 的头衔永远只是暂时的胜利。
市场份额之争
在大模型技术迭代放缓之前,榜单仍有存在的价值。当下而言,大模型榜单排名直接影响 AI 公司的融资估值和客户信任度。
榜单算得上大模型的第一张名片,背后直接关系到大模型市场份额的竞争。据一篇关于 "2025 年上半年大模型 API 市场数据分析帖子 ",大模型市场份额方面,谷歌以 43.1% 的份额稳居第一,DeepSeek 和 Anthropic 分别以 19.6% 和 18.4% 的份额占比位列第二和第三。
谷歌 " 量大管饱 "" 全覆盖 " 的策略,令其在市场(特别是文本翻译领域)占据了绝对优势。DeepSeek 虽属于后起之秀,但在开源、性能优势的加持下快速追赶了上来,自 DeepSeek-V3 发布以来,一直保持着一定的市场份额,并且在持续扩大。
Qwen3 因为比 DeepSeek 慢了一步,没有吃下这波开源的红利。截至今年上半年,通义千问(Qwen)系列模型仅占据了 1.6% 的市场份额。
DeepSeek 的市场份额扩大,似乎表明大模型的竞争格局尚未成型。即只要模型得到市场认可,就有可能与巨头抗衡,今天是 DeepSeek,明天就有可能是通义千问。
这也解释了 MiniMax、Kimi 举公司之力突破和开源最新大模型能力的原因,这些公司也想吃下一部分大模型细分市场份额。成为 OpenAI、谷歌的 " 高仿 " 也在考虑范围内,比如最近就已经有开发者用 Kimi K2 模型来替代 Claude 4 的某些功能,其核心优势就在于免费、开源。
比起创业公司的单点爆破,国内通义千问的赢面或许更大。大模型市场份额比拼的是长期竞争力,无论是开源还是闭源,大模型能力都得保持一直更新中,稍有不慎就面临着掉队的风险。
一个典型的例子是 LIama,LIama2、LIama3 此前在开源社区声量很高,但后期模型能力差强人意,被同样开源的 DeepSeek 取而代之。MiniMax、Kimi 等公司缺乏持续开枪的弹药,受 IPO 的压力,也许很难保证连续性的突破式创新。接下来中国大模型市场份额的竞争,角逐者仍锁定在 DeepSeek 和通义千问之间。
魔搭开发者大会上,通义千问负责人林俊旸透露,通义千问将继续在强化学习方向探索,从大模型训练时代迈入智能体训练时代。多模态是其中一个重点方向,Qwen 下一代 VLo 已经在路上,目前已有一些阶段性进展,多模态模型的生成和理解统一是现在的目标。
大模型下沉
大模型烧钱换来榜单的一席之地,最后总得有人来买单。
现在模型厂商推进商业化路线大致有两种。
一种是拿下各行业大客户,打造标杆,以此来吸引同行业其他潜在群体。阿里通义大模型已经服务了商业银行、互联网公司、手机品牌、家电龙头、高校及科研院所、汽车行业等客户。
另一种是做 To B 定制化单子,主要面向政企类客户,交付包括算力、大模型、智能体应用在内的一体化解决方案。
以上两种路径的共同点是,由通义方来主导,自上而下地推动大模型落地。同时,光子星球注意到,除了头部大客户外,大模型下沉的趋势越来越明显,不少团队正在主动集成通义千问大模型,在此基础上落地应用。
" 农法千问 " 大模型是以农业农村法律政策为主要内容的 AI 大模型,通过集成通义千问技术,将晦涩法规转化为方言问答,来提升农民法律意识。同样在农业领域还有相关论文在讨论,通义千问参与设计灌溉系统、土壤改良方案的可行性。
此外,在河南、重庆等地的乡村,百度千帆平台正推动 " 大模型下乡 " 计划,帮助村民便捷处理医保缴费、户籍办理等琐碎事务。还有一些城市和县域,研究 AI 公务员上岗、大模型种植荔枝和 AI 养猪,这些是比乡下 " 刷墙 " 更实在的大模型渗透方式。
总体而言,中国大模型已经走过了炫技和参数比拼的时代,剩下的只有解决一个个行业问题。
互联网大厂的下沉市场竞争由来已久。
阿里曾在 2017 年推出 ET 农业大脑技术,将 AI 与农业深度结合,形成从生猪养殖到经济作物的全场景解决方案。在 " 热土计划 2024" 中加大投入、提供专项基金,联合多方共建乡村可持续发展实验室。在此基础上,大模型全线向下渗透不过是时间问题。
对下沉市场而言,中国模型具有本土优势。在中文语境、方言理解上的本土化能力,比国际模型更适配县域需求。一些轻量化模型和 MoE 架构降低部署成本,更适合于算力薄弱地区。在这个过程中,通过与 G 端和 B 端企业的合作,还能撬动 C 端应用入口的下沉,让 " 母猪产后护理,问腾讯元宝 " 不再流于口号。
大模型的商业化之路,正从高悬的 " 技术神坛 " 走向广袤的田间地头。
榜单排名竞争固然重要,但未来大模型的价值将在,用方言解读法律条文的村口,在 AI 测算灌溉流量的水渠边。
微信号|TMTweb
公众号|光子星球
别忘了扫码关注我们!
登录后才可以发布评论哦
打开小程序可以发布评论哦