云知声U2冲进第一梯队，大模型开始比拼“智能密度”

智能密度 × Token 价值，才是下阶段 AI 的核心竞争力。

作者｜麦子

编辑｜栗子

AI 热身赛已经结束。

过去三年，大模型行业奉行的逻辑简单粗暴，认为参数越大越好，推理链越长越聪明，算力投入越高越能打。千亿、万亿参数的军备竞赛，一度成为衡量一家 AI 公司技术实力的最直观标尺。

可是，当模型能力逐渐逼近天花板、Agent 调用越来越频繁，推理成本日益成为企业部署的隐形门槛。整个行业不得不开始思考一个新的问题：下一个阶段，AI 的核心竞争力是什么？

云知声的回答是：智能密度 × Token 价值。

2025 年 6 月 8 日，云知声上市恰满一年的时间节点，发布了自研新一代基座大模型 U2。U2 秉承高智能密度与高 Token 价值的设计哲学，从底层架构开始重构，采用快慢思考融合的 MoE 混合专家范式，以 10B 的极低激活参数实现行业顶级任务表现。

在业内多项评测中，U2 不仅在长文本、知识推理和指令遵循等核心基础能力上全面领先，更在复杂代码工程与 Agent 协同办公等真实任务场景中跻身行业第一梯队，以更低的算力投入兑现顶级任务完成能力，展现出企业级智能体大规模落地的现实价值。

可以看出，这不是一次简单的产品迭代，而是云知声用十三年积累回答 AI 行业下半场问题的一次公开发声。参数竞赛终会结束，但智能创造价值的能力，才决定一家 AI 公司最终能走多远。而云知声先一步行动，开始推动大模型从 "Token 驱动 " 迈向 " 状态驱动 " 的自主执行时代。

1. 从回答问题到完成任务，

U2 为何一出现就能跻身第一梯队？

过去三年，大模型行业几乎都在遵循同一套逻辑。更大的参数规模、更多的训练数据、更高的算力投入，仿佛模型越大，能力就越强。

相比追逐万亿参数，U2 更关注单位 Token 承载多少有效知识、创造多少业务价值。这背后的底层逻辑是云知声提出的核心公式：AI 行业价值 = 智能密度 × Token 价值。智能密度解决的是 " 单位参数里装了多少真实知识 "，Token 价值解决的是 " 每一个输出 Token 是否真正创造价值 "。

最新的测评显示，U2 展现了极度务实、面向真实企业级落地场景优化的强大实力。U2 在长文本理解、核心知识推理和复杂指令遵循等基础能力评测中全面领先，充分印证了其 " 高智能密度 " 的设计理念。

更值得关注的是，在代码工程和 Agent 实战等更接近真实生产环境的测试中，U2 同样稳居行业第一梯队。无论是深入真实 GitHub 开源仓库完成代码修复与单元测试跑通，还是在多工具协同的复杂办公环境中完成长流程任务交付，U2 都展现出原生 Agent 架构所具备的规划、执行与验收能力。

这意味着，U2 仅仅以仅 10B 激活参数，不仅在基础模型能力上达到行业领先水平，更在真实任务场景中证明了自身的工程化落地能力，最终实现了比肩顶级大模型的任务完成效果。

但评测只是起点，真正的考验来自现实场景。对于优秀的 Agent 来说，多步自主执行能力意味着，不仅要会干活，更要能把活干完，甚至能够处理越来越复杂的大型任务。

为了测试 U2 的工具调用与环境交互能力，我们给它布置了一个经典任务：开发一款俄罗斯方块小游戏，要求单文件运行、支持方向键控制、实时计分，并具备完整视觉效果。

接收到任务后，U2 直接自主完成需求拆解、架构设计、代码编写、运行验证等一系列操作。几分钟后，一个可直接运行的产品已经生成，可以看到渐变色方块、动态粒子背景、完整交互逻辑一应俱全。

更有挑战的是多摆混沌系统模拟器。这个任务要求模型理解混沌摆背后的物理原理，从拉格朗日方程推导开始，完成数理建模、数值求解、动态渲染和交互控制，最终生成一个可实时运行的可视化系统。

从科学原理到工程实现，U2 能够自主完成需求解析、架构设计、代码编写、环境调试和自主 Debug，展现了端到端的软件工程交付能力。

可以看到，面对大型工程项目，U2 不仅能够维护多文件之间的依赖关系、接口定义和调用逻辑一致性，还能够在复杂协作链路中完成代码修改、功能验证与结果验收，将原本割裂的开发流程整合为一条完整的执行链路。

但会干活，还不等于能高效、准确地把活干完。真正考验 Agent 能力的，是面对长流程、多步骤任务时，能否持续保持目标一致性，并最终完成交付。

我们让 U2 生成一份新能源汽车行业全景分析报告：要从市场规模、竞争格局、技术路线、政策环境、基础设施、未来趋势等维度进行分析，判断新能源汽车行业的发展趋势。

这类任务背后涉及市场数据获取、行业信息检索、风险测算、风格分析、宏观研判以及最终报告生成等多个环节。最终 U2 呈现出来的结果，是一份结构完整、逻辑清晰、具备参考价值的专业研究报告。

整个过程，U2 的表现像一个真正的研究团队负责人。接收到目标后，它会自主拆解任务、规划执行路径，并根据不同阶段调用对应工具，完成数据获取、信息筛选、逻辑推演和结果验证，将多个独立环节整合为一条完整执行链路。

而在办公场景中，U2 展现出的则是 Agent 能力的更高阶，多 Agent 协同与动态编排的情况下，持续保持稳定执行的状态。

我们给 U2 的任务包含十余项约束条件，如历史遗留问题处理、新流程设计目标、客户服务规范、突发情况预案以及时间安排要求，多个目标之间还存在复杂依赖关系等。

最终，U2 根据任务特性自主裂变并分配控制型、执行型、验证型等不同角色，形成明确的分工阵型。它不仅生成了规范的 PDF 备忘录和配套 Excel 日程表，还自动完成日期替换、逻辑校验、细节补充和流程优化建议，几乎无需修改即可投入使用。

可以看到，面对需要多领域知识、多步骤验证以及并行探索的复杂任务时，U2 能够根据任务特性自主拆分目标，分配不同角色协同完成。

这种协作模式的价值在于，它让模型不再依赖单线程思考，而是能够同时探索多种可能路径，并通过交叉验证持续提升结果质量。对于复杂研究、多环节决策以及跨领域任务而言，这种能力意味着更高的执行效率、更低的试错成本以及更强的任务完成能力。

从软件开发到行业研究，再到复杂办公场景，U2 展现出的并不仅仅是更强的推理能力，而是一套完整的 Agent 能力体系：工具调用让它能够行动，长程规划让它能够持续执行，多 Agent 协同则让它能够处理更复杂、更庞大的任务。

总之，从性能到真实场景落地，U2 始终围绕一个目标：把智能真正变成生产力。真正优秀的 Agent，不只是会干活，而是能够干得完、干得快、干得省，并最终创造持续的商业价值。从这个意义上说，U2 已经完成了从 " 生成答案 " 走向 " 完成任务 " 的一次跃迁。

2. 如何把每一个 Token 的价值榨到极致？

为什么一个激活参数仅为 10b 规模的模型，能完成许多百亿、千亿模型都做不好的任务？

如果沿用过去三年的逻辑，这几乎是不可能发生的事情。因为行业默认更多参数意味着更多知识，更长推理链才能实现更强能力。

而 U2 恰恰走了一条相反的路。相比生成更多 Token，它更关心每一个 Token 是否真正创造价值；相比堆积更多参数，它更关注单位参数究竟承载了多少有效知识。

这也是云知声提出 " 高智能密度 × 高 Token 价值 " 的原因。

而要实现这一目标，首先要解决的是模型架构问题。

传统稠密模型往往依赖不断扩张参数规模提升能力，而 U2 从设计之初便采用了稀疏 MoE 架构。每次推理过程中，模型只激活完成当前任务所需的专家网络，而不是调动全部参数参与计算。知识存储与知识调用被有效解耦，使模型能够在更小的激活参数规模下维持顶级任务能力。

换句话说，U2 追求的是更高的参数利用率。

当然，这些仅仅依靠更高效的架构还远远不够，这就要从根本上解决 " 思考 " 的问题。

今天许多推理模型都存在一个共同问题。为了得到正确答案，会生成极长的思维链。模型看起来思考得很认真，但大量 Token 实际上消耗在中间过程，而不是最终结果上。

U2 则采用了隐式思考机制。传统模型需要将每一步推理都转化为自然语言 Token，而 U2 能够直接在连续隐空间中完成大量中间推理，仅在关键决策节点切换回显式推理进行验证。简单理解为，就是先在内部完成大规模探索，再将真正有价值的推理结果呈现出来。

云知声大模型事业部总经理刘升平博士举了一个医疗场景的例子。一份病历生成任务，传统模型往往需要输出 2000 至 3000 个 Token，而采用隐式思考技术后，U2 能够将输出压缩到 1000 个 Token 以内，同时保持结果质量。

对于用户来说，看到的变化很直接，就是更少的 Token 消耗、更快的响应速度，以及更低的推理成本。

然而，真正决定 Agent 能力上限的，并不是思考而是执行。

今天很多 Agent 仍然依赖大量外部工作流和规则系统完成任务规划、工具调用和过程控制。而 U2 选择尽可能将规划、执行、记忆、校验和纠错能力训练到模型内部。刘升平把这种思路概括为一句话：" 大模型做厚，Harness 做薄。"

为此，云知声将模型原生 Agent 能力的提升与 Harness（任务执行脚手架）的迭代优化纳入同一训练闭环，形成双向强化的协同演进机制。此外，云知声通过课程学习的核心直觉模拟了人类学习规律，并基于过程奖励信号识别出无效动作的同时，又能奖励 " 看似迂回但开辟关键路径 " 的高价值探索。

在训练过程中，Harness 持续提供高质量任务环境与反馈信号，而模型则不断吸收执行过程中的成功路径、失败路径和优化轨迹。随着训练迭代推进，原本依赖外部框架完成的能力逐渐内化为模型本身的能力。

这也是为什么在金融研究、办公自动化和软件开发等复杂场景中，U2 往往能够以更少轮次完成任务。当许多模型还在不断确认下一步应该做什么时，U2 已经开始主动拆解任务、调用工具并推进执行。

最终，这些能力又进一步转化为成本优势。除了 MoE 带来的稀疏激活机制之外，U2 还通过 " 隐式探索 + 显式验证 " 压缩推理开销，通过上下文自适应记忆机制减少无效上下文累积，并利用 FP8 全链路精度优化进一步降低训练和推理成本。

因此，云知声并没有选择通过堆参数、堆算力换取能力，而是试图通过更高效的架构、更高效的推理方式以及更原生的 Agent 训练体系，让每一个参数承载更多知识，让每一个 Token 创造更多价值。

如果说过去的大模型在追求 " 更多参数、更多 Token"，那么 U2 追求的只有一件事，就是让每一个激活参数承载更多知识，让每一个生成 Token 创造更多价值。

这看似只是技术路线的不同，背后却代表着 AI 行业正在从参数竞赛走向价值竞赛。

3. 当 Agent 变成生产力，

云知声为什么能最先抓住机会？

云知声的发展轨迹，某种程度上也是 AI 产业技术演进的缩影。

从语音识别到自然语言理解，从智能交互到大模型与 Agent，过去 13 年，云知声始终跟随 AI 技术演进的主线前行。正因云知声持续迭代，才能在每一次技术浪潮到来的时候，都在原有能力基础上先于同行向前迈进一步。

所以，云知声发布的 U2，更像是云知声过去所有技术和产业数据积累的一次集中兑现。

当大模型浪潮席卷而来时，很多公司最头疼的问题是缺场景、缺数据、缺真实业务验证环境。

而云知声手里握着的，是过去十余年沉淀下来的数据资产。

过去十三年里，云知声语音识别只是入口，长期扎根于医疗、交通、IoT 等复杂行业场景，手握持续沉淀下来的真实数据、业务流程和行业知识。在医疗领域，云知声已经服务超过 450 家医院；在轨道交通领域，打造了业内首个智慧地铁站；同时，云知声还为家电、车载等终端提供语音交互方案。

这些业务看似彼此独立，但背后却在持续沉淀了最稀缺的资产：真实世界的数据，以及对真实业务流程的理解。

在 ChatGPT 时代，这些积累看起来只是垂直行业经验。可是到了 Agent 时代，它们开始变成训练模型最稀缺的养料。

正是基于这些积累，云知声逐渐形成了一套独特的 " 双模型飞轮 "。

一端是通用大模型，负责推理、规划、工具调用和 Agent 执行能力；另一端是医疗、智慧交通、智慧座舱等行业模型，持续沉淀垂直领域知识和真实场景经验。

更重要的是，两者并非独立存在，而是在不断相互强化。

每天产生的新业务数据、新流程和新反馈，会首先沉淀到行业模型中，形成新的专业知识和场景经验；而这些经过真实环境验证的知识，又会持续反哺通用大模型，让模型学习到更接近真实生产环境的问题与解决方式。

于是，一个正向循环开始形成：场景产生数据，数据训练通用模型。当通用模型能力升级，又可以为专业级模型赋能，反过来为垂直场景创造更多价值。

时间越久，这个飞轮转得越快。所以，当许多公司还在寻找落地场景时，云知声已经拥有了一套持续进化的数据与知识体系。

但真正让云知声发生变化的，还不只是技术。上市之后，云知声开始进行一次内部称之为 " 二次创业 " 的组织变革。

过去，研发、平台和项目交付分散在不同部门，组织结构服务于项目制的商业模式；而 Agent 时代需要的是从模型研发到商业化落地的快速闭环。" 以前我们认为技术好就可以拿下更多客户，但在 agent 时代价值驱动成为主流，光讲技术有多少牛意义不大，要说清楚我们的大模型能解决多少问题，能带来多少价值。" 刘升平强调。

于是，云知声开始打通研发、平台和业务团队，让模型能力、产品能力和商业化能力同步迭代。有意思的是，就在云知声大模型事业部成立后没几天，阿里也宣布成立 Token Hub 事业群，将大模型部门、ToC 应用和 ToB 销售合并。几乎是相同的组织逻辑绝非巧合，这是 AI 行业一个即将成为主流的趋势。

过去卖的是项目，未来卖的是产品；过去交付的是方案，未来交付的是持续创造价值的智能体。现如今，市场已经开始给出正向反馈。根据云知声发布的 2025 年年报数据，云知声全年实现总收入 12.11 亿元，较 2024 年的 9.39 亿元增长 29.0%。

云知声业绩最大的亮点在于大模型相关业务的爆发式增长。公告显示，该部分收入从 2024 年的 5187 万元跃升至 2025 年的 6.10 亿元，增幅超过 10 倍。这一数据印证了公司 " 强基模、深应用 " 战略在商业化落地方面的初步成效。

还有一组容易被忽略的数据。云知声 5 月 Token 调用收入对应的 ARR 环比增长约 600%，预计 6 月仍将保持高速增长，对应 ARR 有望提升至 1500 万美元。

这些数字不仅意味着云知声的产品开始被市场接受，更意味着它正在从一家传统 AI 公司，转变为一家依靠模型能力持续创造价值的 AI 基础设施公司。

当行业开始按 Token 算账，企业开始为结果买单，谁能够把智能持续转化为生产力，成为新的竞争力。

十三年前，云知声试图解决的是 " 机器如何听懂人 "；十三年后，U2 试图解决的问题已经变成了 " 机器如何替人完成工作 "。

从语音交互到原生 Agent，从理解世界到执行任务，云知声走过的十三年，本质上是在不断缩短机器与生产力之间的距离。而 U2，正是这条路径走到今天交出的最新答案。

（封面图来源：AI 生成）

END.

宙世代

一起剪

相关标签