文 | 智百道
AI Coding 正无可争议地成为人工智能领域商业化最先落地的赛道。
据研究机构 Market Research Future 预测,AI 编程工具市场将从 2025 年的 151.1 亿美元增长到 2034 年的 991 亿美元,CAGR 达到 23.24%。
在今年 5 月举办的 Meta LlamaCon 大会上,微软 CEO 纳德拉表示,现在微软 30% 的代码都是 AI 写的。微软首席技术官凯文斯科特曾预测,到 2030 年 95% 的代码将由 AI 生成。
再看中国市场,工信部发布的数据显示,2024 年前三季度,我国软件业务收入 98281 亿元,同比增长 10.8%;这都有可能转为 AI 编程的潜在市场空间。
面对万亿级的商业前景,中国模型正在上演一场惊心动魄的参数追击战。
以 DeepSeek-V3.2(12 月 1 日推出)为例,衡量大模型代码工程任务解决能力的 SWE Verified 达到了 73.1%,逼近 Anthropic 旗下的 Claude-4.5-Sonnet(9 月 29 日推出)的 74.9%。
在《智百道》看来,仅仅盯着数字的差距,或许会让我们错失战局的真相。中美 AI 编程的胜负手 , 或许正在从参数性能转向生态标准。
01 国模开源搞基建,美国闭源卖性能
长久以来,编程被定义为一种严谨的、逻辑驱动工作,能将人类意图转化为机器可理解并执行的语言。也是因为这种严谨的因果逻辑,对于时下主流的 LLM 来说,编程是 PMF 最好的领域。
在 AI Ascent 2025 上,红杉资本直言,AI Coding 是第一个被颠覆的市场,这也将成为未来其他行业 AI 化进程的重要先兆。
在这个高付费意愿的领域,中国与美国走上了两条路。
美国是精英化的闭源路线,靠着不俗的模型性能博得资本市场青睐,撑起了惊人的市值。
AI 编程工具 Cursor 近期宣布完成 23 亿美元 D 轮融资 , 股东名单集结了 Google、英伟达等头号玩家,其母公司 Anysphere 估值在四个月内翻了 3 倍 , 达到 293 亿美元。而在 B 端市场攻城略地的 Anthropic,估值更是飙升至 3500 亿美元。
其于 11 月 25 日新推出的 Claude Opus 4.5, 在 SWE-Bench Verified 测试中突破 80.9%,不仅超越了 Gemini-3 Pro 和 GPT-5.1,更是首个在该指标上达到 80 分的大模型,标志着 AI 的代码修正能力已具备甚至超越人类专家的水准。
更有杀伤力的是价格战。Claude Opus 4.5 的 API 定价降至每百万 tokens 5 美元 ( 输入 ) /25 美元 ( 输出 ) , 相比上一代直接砍去了三分之二。
相比之下,中国模型走出了截然不同的开源 + 性价比路线。
今年,DeepSeek 的 R1 横空出世 , 不仅拉升了国产模型的基准线 , 更奠定了中国厂商的开源基调。经过一年角逐 , 以 Kimi、Qwen、GLM 为首的国产模型军团 , 在参数表现上已能几乎与海外顶尖模型分庭抗礼。
以 DeepSeek 在 12 月 1 日新推出的 V3.2 为例,SWE Verified 达到了 73.1%,逼近 Anthropic 旗下 Claude-4.5-Sonnet(9 月 29 日推出)的 74.9%,这体现出了开源 + 性价比的可行性。
路线不同也决定了双方的受众并不同。
财富杂志此前报道,许多欧美高管倾向于 OpenAI、Anthropic 或谷歌等公司专有模型的性能优势。
而亚洲市场则更务实 , 数据主权和成本控制是核心考量。
中国人工智能云托管服务商硅基流动的联合创始人兼首席执行官袁进辉表示,该公司开发了多种技术,能更经济高效地运行开源模型,这意味着使用开源模型完成任务的成本远低于采用专有人工智能模型。此外,他还表示,如果针对特定应用场景,利用自有数据对开源模型进行微调,其性能表现能超越专有模型并完全避免敏感数据或商业机密泄露的风险。
祥峰投资控股公司的陈逸邦强调,虽然专有模型供应商也会为企业提供基于自有数据的微调服务,通常还会承诺不将这些数据用于更广泛的训练,但真实情况如何我们无从得知。
开源模型允许开发者免费下载、修改和集成,初创企业更易开发产品,也使研究人员更易改进模型。其广泛应用正对人工智能未来走向产生巨大影响,这一逻辑正在全球范围内生效。
新加坡国家人工智能计划 ( AISG ) 近期的战略调整最具标志性,其最新版东南亚语言大模型 "Sea-Lion" 宣布弃用 Meta,转而基于阿里的 Qwen 架构构建。这代表中国开源模型已开始在全球技术版图中凭借实用主义突围。
过去一年,中国团队自主研发的开源 AI 模型下载份额占比已上升至 17.1%,首次超过美国的 15.8%。麻省理工学院与 Hugging Face 数据显示,DeepSeek 和阿里巴巴的千问模型,占据中国模型下载量的绝大多数。
02 我们在造车,美国在修路
随着大模型迭代速度的放缓,在参数上,国内逼近甚至追平美国顶尖模型或许只是时间问题,但从另一个角度看,海外领先的或许不只有模型的工程化能力,而是生态的护城河。
在《智百道》看来,以 Anthropic 为首的顶级模型厂商在试图定义智能体时代的 HTTP。
今年 2 月,Anthropic 推出 Claude Code。这不仅仅是一个工具 , 而是原生的 IDE 系统。与 Cursor 等 " 套壳 "IDE 不同 ,Claude Code 实现了模型与开发环境的深度解耦与重构。它能直接理解代码库、管理上下文 , 并调用第三方工具。
仅仅 4 个月,Claude Code 就吸引了 11.5 万名开发者。Menlo Ventures 预测 , 仅此一款产品就能为 Anthropic 贡献 1.3 亿美元收入。
此外,Google 推出了 A2A 开放协议,支持模型到模型的互操作性,解决不透明代理系统之间的黑盒状态。
众所周知,每个模型都各有所长,在实际应用场景中,开发者往往需要调用不同模型来共同实现目标。A2A 协议支持用户在执行任务时,支持用户调用不同大模型生成不同的 Agent 共同完成特定目标。
如果说与 A2A 是指在贯通模型之间的合作,那么与其互补的是 MCP。
2024 年 11 月,Anthropic 将 MCP 开源,率先定义了 " 模型怎么连接工具和数据源 " 的标准。简言之,MCP 比 Claude Code 简单做链接更高阶,让模型可自主决定调用哪些工具,并实现复杂任务。
在生态能力上,Anthropic 为了解决 MCP 重复造轮子的缺点,推出了 Skills。Skills 并没有创造一个新 " 功能 ",它并不是单纯让 Claude 去调用工具,而更像是在给模型装上记忆与流程。你可以把一整套业务流程、模板、甚至公司内部知识,打包成一个个 Skill 模块,让 Claude 在合适的时机自动调用。对开发者来说,它就像是给 LLM 加上一层轻量级 Workflow,既可控又灵活。不光省 token、省时间,还能提升准确率、方便协作共建。开发者借助 Skills 将编写的工具与模型对接,给模型扩展能力。
当智能体可以跨平台协作,拥有最丰富工具链和操作系统的玩家自然就掌握了立法权。生态位的竞争,自然先于技术路线的分歧。
海外大模型厂商能对 B 端应用有较为成熟的理解,和美国更成熟的 SaaS 生态相关。美国 SaaS 产业起步于上世纪 80 年代,早已形成标准化、成熟的 SaaS 工作流。因为强依赖 标准化 API 与插件体系,对智能体自动化跨平台协作的意愿更强烈。
中国企业 SaaS 起步晚近 10 年,很多企业业务并非高度结构化,这就给国内模型厂商的生态化、标准化工具的推广带来阻碍。
好在,觉醒已经开始。
今年 8 月,阿里推出了 Qwen Code 尝试在生态层面追平,这也让我们看到了国模在生态上其实也颇有前景。
Qwen Code 也表示,将持续把开发者体验放在最前面,未来会进一步扩展 IDE 插件、增强工具调用能力,持续靠功能积累提升工程效能。
可以看出 Qwen Code 正在慢慢走进 "AI 工程化 " 真正的核心战场,试图开发工作流接管,形成自己的规则。
从长远视角看,未来最重要的不是模型的单点性能,而是哪个国家抢到 B 端标准制定权,虽然参数提升速度快,追赶成本低;但生态成熟需要多年开发者积累、接口标准、企业垂直理解,这些无法速成。
AI 应用生成工具领域的发展就像基础模型的竞争一样,不是一个赢者通吃的市场,而是各家在逐步找到差异化空间,实现共存,而国模厂商从性价比到生态也在奋起直追,毕竟我们已经意识到,只有建立起自己的生态与标准,中国 AI 才能真正跨越那道看不见的护城河。


