大模型第一梯队该有谁？云知声用U2投了一票

大模型正陷入一场 " 军备竞赛 " 式的狂欢。参数规模从千亿到万亿，上下文窗口从 1 万到 100 万，各家厂商你追我赶，仿佛谁投更多算力、堆更大参数，谁就能赢下这场 AI 竞赛。但研究表明，单纯增加参数带来的性能提升正在急剧递减。

斯坦福大学发布的《大模型规模定律》指出，当参数超过 5000 亿后，模型在推理能力、常识理解等核心指标上的提升幅度从早期的 30% 以上降至不足 5%，而训练成本和能耗却呈指数级增长。

企业真正需要的，是一个参数天文数字的 " 全能选手 "，还是一个足够聪明、足够便宜、能实实在在干活的 " 专业搭档 "？

6 月 8 日，云知声发布自主研发的下一代原生智能体模型 U2，一款有近 3000 亿参数的 MoE 稀疏模型，宣称能在多数任务上比肩万亿参数模型。更关键的是，其推理成本显著低于同尺寸规模大小模型。

当大多数玩家还在比谁的模型 " 更大更强 "，云知声选择了一条 " 强而小、强而省、强而能落地 " 的差异化路径。这条路径的逻辑是什么？底气从哪来？能否撑起 " 国产第一梯队 " 的目标？

大模型界的

" 反内卷选手 "

目前主流的万亿参数级别大模型，动辄需要上千张 GPU 卡才能跑起来，单次推理的电力成本和算力成本高到让大部分企业望而却步。而 U2 的近 3000 亿总参数，激活参数量只有百亿级别，按照 MoE 架构的稀疏特性，每次推理只调用约十分之一的专家参数。

这背后的底层公式，是云知声创始人黄伟提出的一个概念：AI 公司行业价值 = 智能密度 × Token 价值。

什么叫 " 智能密度 "？黄伟的解释是：不是单纯强调模型小，而是在模型性能达到全球第一梯队水平后，进一步衡量每单位参数里承载了多少知识、推理能力和任务解决效率。

用一句更直白的话说：你用十个参数能干别人一百个参数的活儿，你的智能密度就更高。

而 "Token 价值 " 则是另一个被行业忽视的维度。过去两年，大模型厂商喜欢比 " 生成多快 "" 生成多少 "，黄伟把这个逻辑反过来问：如果生成的 Token 没有业务价值，那它不是收入，是成本。Token 价值不是看数量，是看每次调用能否真正转化为业务结果。

U2 是云知声自研、基于快慢思考融合的稀疏混合专家（MoE）架构通用大语言模型，从设计之初就锚定 " 为执行而生 "，而非 " 为生成而生 "。

其拥有许多技术亮点，例如在高智能密度方面，通过知识精炼编码、语义压缩优化，近 3000 亿参数的 U2 在多数纯文本任务接近甚至超越国内万亿参数模型，参数效率接近后者约 5 倍。用更少参数承载更高密度知识与推理能力，告别无效参数堆砌。

"Agent+Harness 协同演进 " 是 U2 的另一个关键标签。

传统大模型本质上是 " 嘴强王者 "，能回答问题、能写文章，但真要让它去完成一个复杂的多步骤任务，比如自主调用工具、规划路径、执行操作并验收结果，就得在外面包上一层厚厚的 " 应用壳 "。

U2 的工具调用、状态管理、多步规划均为模型原生能力，可自主理解目标、拆解任务、调用工具、执行验收，适配复杂长程任务，而非靠外挂实现智能体效果。主要是依赖路径规划执行与 harness 协同演进，创新设计原生推理路径蒸馏机制，构建计划 - 环境探索 - 执行 - 验收全链路闭环能力，高效驾驭复杂长程任务。

具体而言，U2 将模型原生 Agent 能力的提升与 Harness（任务执行脚手架）的迭代优化纳入同一训练闭环，形成双向强化的协同演进机制。一方面，Harness 根据当前模型能力边界与特性持续迭代，为模型提供更精准的任务环境与反馈接口；另一方面，模型利用优化后的 Harness 返回的高质量轨迹数据，持续强化多步规划、工具调用、过程纠错与结果验收能力。

这种底层训练机制的脱胎换骨，在直观的应用层带来了全新的使用体验。哪怕是在纯自然语言的交互场景下，它的原生执行力也体现得淋漓尽致。以我最近测试的一个前端开发任务为例，笔者作为一名文科生，从来不会写任何代码，我只需要在 U2 对话框里输入一段指令：帮我写一个单文件的网页小游戏，模拟烟花飞到空中然后绽放。要求画面特别炫酷，五颜六色的线条轨迹，而且我可以用鼠标去互动。

令人惊喜的不仅是它在不到 2 分钟内一次性交付了无 Bug 的成品代码，更在于它在生成过程中展现出的 " 原生规划感 " ——它无需外部提示，便自主完成了从底层 canvas 逻辑构建、五彩线条轨迹的物理模拟，到鼠标交互事件的精确挂载。全程单次交互便达到验收标准，直观验证了其内化的任务分解与执行能力。

个人的惊艳体验并非孤例，规模化的评测数据也为这种 " 高执行力 " 提供了严谨的佐证。U2 在最新的综合评测中展现了极度务实、面向真实企业级落地场景优化的强大实力。评测深度覆盖了智能体能力（Agentic Capacity）、实战化智能体专项（Claw Specific）、长文本能力（Long Context）、知识与推理（Knowledge & Reasoning）以及指令遵循（Instruction Following）五大核心维度，覆盖范围与 U2 的核心设计取向高度契合。

让人惊喜的是，在 6 月 10 日海外权威 AI 模型评测平台 LLM Stats 更新的榜单中，云知声 U2 登上两项关键评测：在 LLM Stats Score 综合能力榜单中进入模型总榜前 30，按厂商最佳模型成绩位列全球模型厂商第九。此外，LongBench-V2 评测排名中，U2 的长文本能力以 54.4% 的准确率超越 Claude Opus 4.7（53.9%），仅落后 GPT-5.4（55.6%）1.2 个百分点，排名全球第二。意味着其核心的上下文信息提取、跨段落推理能力已达到全球第一梯队水平。

◀ 滑动查看更多 ▶

此外，评测结果全面印证了 U2" 双高 + 原生智能体 " 的核心主张，确立了其作为新一代高效 Agent 模型的行业地位。首先是三大基础能力全面夺魁，印证 " 高智能密度 "；其次是代码工程与 Agent 实战稳居第一梯队，彰显 " 原生智能体 " 本色；最后是极致能效带来压倒性降本优势，践行 " 低成本高产出 " 战略。

「子弹财经」发现，U2 的底层逻辑，是先达到一流智能水平，再把成本打到最低。如同造车不是马力越大越好，而是在保证速度与安全前提下做到最省油。

黄伟的比喻直白又精准：" 我不需要一个中国科学院院士来开滴滴。很多任务场景不需要最高智能，硕士博士水平就够了。"

十几年的 " 长征路 "

很多人对云知声的印象还停留在 " 做语音识别 "，这个认知偏差其实不小。

在 AI 1.0 时代，它的知名度远不如商汤、旷视那批 "AI 四小龙 "。但黄伟有一个很有意思的观点：云知声不是从语音走向大模型，而是从智能交互走向大模型。

翻开时间轴，可以看到云知声的一条发展主线：语音只是入口，背后是意图理解，再背后是任务执行。

2012 年创立，同年攻克 "5 米远讲 " 技术；

2013 年发布业内首款语音电子病历，走进协和医院；

2014 年推出语义云，业内首提 " 云端芯 " 一体化战略；

2018 年自研 AI 芯片 " 雨燕 " 面世；

2023 年发布山海通用大模型；

2024 年山海医疗大模型登顶 MMDU、MedBench 等全球榜首；

2025 年 6 月，云知声在港交所挂牌上市，被誉为 "AGI 第一股 "。

这十多年里，云知声几乎在每个技术周期都提前下了注，只不过 " 踩早 " 是有代价的。黄伟自己说得坦率：" 踩早总比踩晚好。踩早了你付出的是时间成本，踩晚了你连入场的机会都没有。"

上市近一周年，首份年报交出的数据颇有看头。2025 年全年，云知声总营收 12.11 亿元，同比增长 29.0%。其中大模型相关业务实现收入 6.1 亿元，同比增长逾 10 倍，占整体营收比重攀升至 50% 以上。大模型业务从早期的技术探索阶段，蜕变为支撑云知声发展的核心驱动力。

还有一个值得关注的数字，2026 年 5 月，云知声 Token 调用收入的 ARR 环比暴涨 600%，预计 6 月将继续保持高增长。这意味着公司收入与客户 AI 使用强度已深度绑定，业务的规模天花板全面打开。

商业落地的案例最能说明问题。云知声业务聚焦智慧医疗和智慧生活两大核心领域：在医疗端，其 AI 辅助病历生成系统已在北京友谊医院等多家三甲医院规模化应用，去年仅顺义院区就生成超过 45 万份病历，直接引用率超 90%；在金融端，其车险理赔 AI 解决方案帮助头部保险公司控费率提升 3%，每年节省保费约一二十亿元。这些落地成果充分验证了云知声技术的商业价值。

站在更大的视角看，云知声在 AI 医疗领域的探索已经有近十年。截至 2025 年末，公司已累计与全国近 450 家医院合作，全国综合排名 A++ 及以上医院覆盖率接近 35%。

这些数字背后是一个真实的商业逻辑：模型不是靠参数堆出来的，是靠场景喂出来的。

黄伟将其概括为 " 模数共振 "，模型的性能离不开高质量数据，而好的模型如果不落地，既无法创造价值，也难以在真实场景中获取高质量数据来推动技术迭代。如今，云知声的智慧医疗业务已广泛应用于智能电子病历、临床辅助诊断等核心场景，正是 " 模数共振 " 的典型案例。

这个正反馈一旦启动，就很难停下来。

大模型第一梯队，

凭什么有云知声？

大模型下半场的竞争焦点，已经从 " 谁更强 " 转向 " 谁能以更低成本、更稳定方式交付足够强的能力 "。在这个新维度上，云知声正凭借多年积累的数据壁垒、工程化能力和商业化验证，跻身大模型第一梯队。

行业格局远未定型——这是黄伟反复强调的判断。他说："2018 年人们也认为格局已定，然后很多公司就死掉了。"AI 2.0 时代留在牌桌上的公司比 1.0 时代少得多，但市场空间比以前大多了。

黄伟把过去三年定义为 " 热身赛 "：2023 到 2025 年，国内企业和 OpenAI 的差距从 3 — 5 年缩小到 3 — 6 个月，但 Agent 仅能完成单步简单任务。2026 年才是 " 正赛 " 的开端，AI 从生成式升级为 " 生产力 AI"，Agent 能独立完成复杂任务，商业化窗口真正打开。

开源模型能解决 70% — 80% 的普通问题，但剩下 20% 专业用户的 20% 专业问题，才是真正的护城河。高价值行业的 " 最后一公里 "，一定是通用模型加上行业 know-how 来共同解决。

云知声可能是少数几家真正有资格这么说，也有数据这么做的公司之一。

首先是数据壁垒。云知声在医疗领域深耕了十三年，积累了超 10 亿条合规脱敏的医疗病历数据，这些数据在互联网上搜不到，是跑过真实业务、经过医生实际使用沉淀下来的。在物联网领域，合作伙伴超过 2 万家，端侧 AI 芯片出货量突破 1 亿颗。十几年的场景数据不是想买就能买、想抄就能抄的。

其次信任壁垒同样重要。云知声服务了超过 400 家三甲医院，合作医院中 85% 为三级医院，三分之一合作年限超过 3 年。在 B 端市场，替换成本极高，一旦切入就锁定了后续收入。这形成了一种飞轮效应：越多的行业数据，带来越好的模型效果；越好的模型效果，带来越多的客户信任；越多的客户信任，又沉淀越多的行业数据。

最后是工程化壁垒。云知声能把大模型压缩到零点几 B 的大小跑在离线终端芯片里，车载场景下，大模型蒸馏至 0.5B 参数即可实现端侧无损交互。复杂声学环境下的定向识别、多人说话分离技术，国内能做到的公司仅两三家。

有了 U2，云知声的商业模式正在发生质变。To B 端，兽牙智能体平台正在加速落地，中标覆盖医疗、医保、交通、客服、工牌等多个领域；To C 端，公有云 MaaS 的 OPC 生态持续产生 Token 收入。一个项目交付周期从 3 个月缩短到 1 周，成本降低 80%。

结尾

回看云知声走过的十几年，从语音识别到智能交互，从 AI 芯片到大模型，每一次技术浪潮来临前，它都在牌桌上。但 " 踩早 " 的代价也很现实。

从 U2 的 " 智能密度 " 路线，到年报里大模型收入暴增 10 倍的验证，再到 400 多家三甲医院的信任托底，云知声用一种不太 " 互联网 " 的方式，走到了大模型第一梯队的门口。它没有选最热闹的路，但选了一条最难被复制的路。

正赛哨声已响。问题不再是云知声能不能坐上这张桌子，而是当大模型的竞争从 " 写得好 " 变成 " 干得好 "，这张桌子上的规则，会不会被改写？

宙世代

一起剪