产业家 09-03
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

产业互联网第一媒体。产业家

小模型迅速蹿红背后,并非因为比大模型更先进,而是因为 Agent 作为 AI 落地的主要形态,正好需要小模型这种 " 刚刚好的智能 "。

作者 | 斗斗

编辑 | 皮爷

出品 | 产业家

2025 年 2 月,深圳福田区,部署 70 名 "AI 数智员工 ",承担了 240 个政务场景中的文书起草、政策解读、招商辅助等任务。系统上线后,公文格式修正准确率超过 95%,审核时间缩短 90%,民情分拨效率从 70% 提升至 95%。

支撑这 70 名 AI 数智员工的,是 671B 的 DeepSeek ‑ R1。

DeepSeek 以专家混合技术,根据任务自动激活部分网络,只运行需要的部分,从而显著降低推理资源占用,说白了就是用更少的算力解决了更复杂的问题。

严格意义上来说,DeepSeek 不算是小模型,但它的出现,让人们开始思考大语言模型的 " 大 " 真的有必要吗。

这,成为小模型叙事的起点。后面的几个月里,一些新的变化开始出现。

"2025 年初,我们尝试接入云端大模型,性能虽然强,但调用延迟、成本与数据隐私问题都让人头疼。后来改用某大模型厂商 4B 模型,只用了几小时就部署成功,响应秒级,隐私上也有保障。" 某 SaaS 厂商负责人说道。

也是在 2025 年初,某家智能家居创业团队在开发一款可以脱网的语音设备时,曾苦恼于大语言模型既占空间又拖性能,这时,参数轻量的 0.6B、1.7B、4B 版本立刻引起他们关注。当他们把这款模型部署在家用路由器的 8GB 内存上时,发现其不需要高端 GPU,设备即可本地完成自然语言理解与指令执行,无需联网,既节省延迟,也保障隐私。

这种 " 刚刚好 " 的智能,逐渐成为一些企业的心头好。

据 MarketsandMarkets ™研究预测,2025 年全球小语言模型市场规模将达 9.3 亿美元,2032 年有望增至 54.5 亿,年复合增长率高达 28.7%。Gartner 的报告指出,已有 68% 的企业部署过SLM,超过 45% 的企业在部署后实现了成本优化与准确率双提升。

与市场需求所对应的,是服务商侧的动作," 小体量、高性能 " 正在成为厂商角力的新主战场。

据不完全统计,过去三年,国内厂商 " ≤ 10B 参数 " 小模型的发布占比一路从 2023 年的约 23% 提升到 2025 年 56% 以上,已成为大模型版图里增长最快的细分赛道。

在这一连串变化背后,一些问题浮出水面:从大模型到小模型,AI 落地经历了怎样的转变?小模型具体应用在哪些场景?企业又是如何将其真正落地的?

Agent 落地,

需要 " 刚刚好 " 的智能配套

据不完全统计数据显示,2024 全年,智能体构建平台相关共有 570 个中标项目,372 个项目公开金额,总金额达 23.52 亿元。而 2025 上半年,智能体构建平台相关中标项目数量已达 371 个,是去年同期的 3.5 倍,甚至接近去年全年总量的三分之二。

如果说 2023 年是大模型的狂飙元年,那么 2024 年,就是 Agent 被推到舞台中央的一年。当下则是 Agent 的爆发之年。

它们被寄望于接管企业流程中的重复性任务,例如自动生成周报、客服问答、文档检索、财务分析。对外,它们是客户看得见的智能接口。对内,它们是提升效率的关键工具。

但很快,一个矛盾浮现出来。

一份题为《生成式 AI 鸿沟:2025 年 AI 在商业中现状》的报告显示:95% 的受访企业称,在生成式 AI 投资中未获得任何实际回报,仅 5% 获得了转型回报。

很明显,Agent 落地效果与其爆发之势,并不对等。这让业内开始思考,到底是哪里出现了问题。

"主流的AI代理系统普遍采用大型语言模型(LLM)与企业需求并不匹配。" 在英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文中,这一观点被提出。

一个事实是,在理想化的演示场景里,GPT-4 可以一口气写出一份营销方案,也能跨多个步骤完成复杂推理。但企业真正的落地需求往往更朴素。比如客服 Agent 只需回答我的账单在哪儿、怎么退货;文档 Agent 更多是做摘要、整理重点;财务 Agent 要做的,是把报销单里的关键信息提取出来。

这些任务的共同点是流程清晰、目标确定、重复性强。它们并不需要一个能写诗、能讲故事的大脑,而需要一个记得住流程、干活稳的助手。

于是问题来了,如果用大模型去驱动这些 Agent,效果可能是 " 杀鸡用牛刀 "。大模型虽然强大,却未必是 Agent 最合适的引擎。

根据一家互联网大厂的测试,GPT-4驱动的客服 Agent,一天 10 万次调用,API费用接近 40 万元人民币,一个月就是上千万。而换成 7B 左右的小模型,成本下降了 90% 以上。比如阿里发布的 Qwen2.5-Coder-7B,在代码生成场景里,比上一代大模型更稳定,且推理成本下降了 70% 以上。

此外大模型一次推理往往需要 2-3 秒,甚至更久。但在金融交易或客服场景里,2 秒的延迟就可能带来投诉或风险。相比之下,小模型可以在 500 毫秒内返回结果。就像腾讯 HunyuanLite-6B 在多轮工具调用场景下成功率达 92%,平均响应时间不到大模型的一半。

很多 Agent 需要处理企业的敏感数据,比如用户身份信息、医疗记录、财务数据。大模型多数依赖云端调用,数据必须上传到外部服务器。百度推出的 ERNIELite-3B,就可以直接集成到政务知识问答场景中,本地化部署后避免了数据外泄。

所以,无论是从成本、速度还是数据隐私安全方面来看,推动 Agent 落地方面,小模型都更为 " 合算 "。

从《Small Language Models are the Future of Agentic AI》研究来看,这种趋势已经在大量开源 Agent 项目中得到了验证。数据显示,在 MetaGPT、Open Operato、Cradler 等案例中,高达 40%-70% 的调用,其实只需要SLM就可以顺利完成。

大模型像是超级大脑,适合解决开放性、复杂性的问题;但 Agent 更多是执行型角色,它们要的是稳定、快速、可控的小脑。

于是,小模型在 2024 年迅速蹿红。它们的火,并非因为比大模型更先进,而是因为 Agent 作为AI落地的主要形态,正好需要小模型这种 " 刚刚好的智能 "。

这,才是小模型崛起的底层逻辑。

"小模型≠取代大模型"

那么,小模型的落地究竟怎么样呢?

其实,小模型的特性,让其在一些场景里显现出足够的 " 性价比 "。不过,即使如此,也没有人断言 " 小模型能完全取代大模型 "。

目前来看,小模型落地的典型场景,都是 " 流程清晰、重复性强、对隐私和成本敏感 " 的业务。

例如客服与文档分类等标准化流程任务。美国基贷服务商 Mr.Cooper 和 TD   Bank 等企业,通过中型甚至小型模型,对客服通话内容进行分类、摘要或预测用户需求。这样既节省成本,又提升效率。

还有金融 / 法律等高合规要求领域,McKinsey 报告指出,SLM 在法律、金融、医疗等行业因专用领域训练、更高解释性,更受青睐。这些行业的 Agent 需要精确、合规,不适合依赖模糊的通用泛化能力。

此外还有边缘计算与实时应用,在智能制造、IoT、手机 App 等环境,设备资源有限,但要求响应即时。像 NVIDIA 在工厂端部署的小模型,推理延迟低、带宽消耗少;在手机端,如 SlimLM 系列在 GalaxyS24 上部署文档摘要、问答,运行流畅又省成本。

总的来说,对于预算敏感、合规要求高、边缘部署需求强、有一定技术团队的企业而言,这不失为最优选择。

值得注意的是,如果想把小模型用得和大模型一样好,并不简单,且小模型并不适用于所有场景和企业。

首先从模型本身来看,小模型的泛化能力远不如大模型,遇到长尾问题更容易答非所问。要补齐能力,需要做蒸馏、RAG、工具调用,但这对工程化要求高。

其次在数据层,小模型高度依赖高质量样本。例如金融行业尝试训练客服小模型,发现原始语料几百万条,但清洗后可用的不到 10%,可能会导致模型效果不稳定。

还有系统集成层,小模型需要和知识库、API、流程系统对接,拼装起来才算一个完整 Agent。很多企业在这一环掉链子,比如检索模块准确率不高,导致小模型回答跑偏。

更大的难题在于,从大模型转向小模型的沉没成本。

一组数据显示,2024 年 LLMAPI 服务市场规模约 56 亿美元,但同期用于 LLM 托管的云基础设施投资激增至 570 亿美元,是市场规模的 10 倍。这种投资不仅是服务器、GPU 集群硬件,还包括配套工具链、团队能力,一旦转向 SLM,这些前期投入的沉没成本会成为企业的顾虑,导致即便 SLM 更经济,也不愿轻易调整现有架构,根本换不动。

总结来看,小模型的核心价值不是替代,而是补位。它解决的是性价比和合规可控问题,而不是全面超越大模型。小模型落地的门槛在企业工程化能力。能否做好数据清洗、系统集成、模型协作,决定小模型到底能不能跑得稳。

产业转向也不会一蹴而就。巨头和企业在大模型上的沉没成本,意味着小模型的普及不会是颠覆,而是渐进地与大模型形成混合架构。

中国产业 AI,

进入 " 大模型 +小模型" 时代

对于企业而言,究竟如何转型?

在具身智能领域,机器人往往有一个 " 大脑 " 和一个 " 小脑 "。大脑做规划,小脑执行动作。今天企业部署 AIAgent,也逐渐走向类似的架构。

一个类似案例发生在国某家 TOP3 的保险公司内部的理赔中心,公司自研的一款 3B 级模型,其经过细致微调,被精准地训练在 OCR 字段提取、行业术语分类、以及跨系统的字段匹配三大任务上。这套 " 小而专 " 的系统,让日常的理赔处理趋近于零人工干预。

不过,在一些更复杂的场景中,比如识别异常票据、预警潜在欺诈行为等高风险环节,则通过调用大模型的 API 来提升判断的准确性和灵活性。

这样的 " 小模型 + 大模型 " 的协同模式,正在成为越来越多企业选择 AI 落地时的标准答案。其不仅提高了稳定性,也让企业得以控制核心流程在本地运行,避免过度依赖 API 与云端。

那么,对于企业而言,具体应该怎么部署?多大规模才是 " 刚刚好 "?这则需要 " 因人而异 "。

当下来看,1B-3B 模型主要部署在移动端、边缘设备、嵌入式终端,用于文档总结、OCR、现场问询。例如石化行业的设备检修系统,用 2.5B 模型实现语音识别 + 常规故障排查。

7B-9B 模型是中大型企业私有化部署的主力。金融、电信、医疗等行业普遍选择 7B 模型进行定制微调,集成在 CRM、ERP、知识库问答等核心系统中。字节跳动、阿里在内部就有多个 7B 模型挂载在本地 GPU 或混合云架构中。

30B+ 模型仅用于特定、复杂的场景。比如战略报告撰写、法律判决建议、跨业务理解等需要跨知识推理的任务。部署场景受限于成本与工程复杂性。

目前,这场 " 小模型基础设施战 " 已经悄然打响。

可以看到的是,厂商们逐渐开始连推理框架、量化压缩、微调流程都一并打包给企业。

例如,阿里 Qwen-Agent 提供文档问答、结构化填表、财报解析的模块化插件,企业按需即插即用;腾讯混元 Lite+ 私有部署 SaaS 中台,让小模型调优门槛大幅降低,一些中型 B 端企业已实现无需 MLOps 团队即可部署;百度 ERNIELite 政务套件,针对本地合规需求优化模型权限与日志审计功能。

海外厂商也动作频频,微软 Phi-3 发布时,不仅提供模型,还提供完整推理工具和端到端调试流程;英伟达的 TensorRT-LLM+NIM 服务,提供模型压缩、LoRA 微调、部署封装一条龙服务,客户只需选择场景即可配置;Hugging Face Transformers Agents 项目,直接把 SLM 变成微服务化的 " 任务组件 ",让小模型成为模块化智能的原子单元。

更重要的是,开源社区也在主动推动标准化和行业化适配。DeepSeek 开源的医疗问答小模型在不少私立医院试点测试;MiniCPM 在教育领域内测中已集成至作业点评系统;中文 RAG 框架 Langboat 和 LaWGPT 专注构建政法场景的基础小模型生态。

在这些推动下,小模型不再是 " 降配版大模型 ",而是具有完整生态、能独立跑业务流程的 AI 基础设施。

写在最后:

1900 年左右,直流电网让城市第一次有了路灯;而真正点亮全国工厂的,却是十多年后随处可接的交流电。今天,小模型之于 AI 的意义,大抵类似于那条 " 能插在墙上的 " 电线,标志着工业化的可复制时刻。

当智能不再是一块高悬云端的黑盒,而是可以嵌到机器、嵌到表单里的芯片、脚本和服务,AI 才算真正进入产业底层。

最新视频号内容推荐

产业 AI 大模型

产业数字化

数字化大势下,科创板 IPO 的 " 紧箍咒 "

透视京东,和隐藏起来的 200 个上升密码

云上管车背后:透视数字化时代的企业内功

透视云测试:技术、产业、降本增效下的数字化之战

产业 SaaS

《2021 年 SaaS 行业八大趋势 | 盘点》

美团阿里鏖战,餐饮 SaaS 无「终局」

产业供应链

产业互联网时代,谁在重写供应链?

牵手国资背后,再看苏宁的零售产业边界

产业硬科技

《云从「敲门」科创板》

《物联网,一场上云的巨型战役》

《华为:用鸿蒙 HarmonyOS2.0 讲的新故事》

《国产芯片战场:掣肘、决心和看得见的未来十年》

©  往期回顾

产业家网全新上线

© THE END

/

欢迎爆料

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 智能家居 saas 浮出水面 互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论