
智东西
作者 | 骏达 江宇
编辑 | 漠影
智东西 1 月 10 日报道,今天,清华大学基础模型北京市重点实验室发起的 "AGI-Next" 峰会上,多位国内头部开源 AI 实验室的技术掌舵人罕见同场亮相。智谱创始人兼首席科学家唐杰、月之暗面创始人兼 CEO 杨植麟、阿里千问大模型技术负责人林俊旸和腾讯总裁办公室首席 AI 科学家姚顺雨等人,就 AGI 路径、Scaling 极限、Agent 落地与中国 AI 的长期机会等热点话题,进行观点的交流和碰撞。

这场会议长达三个半小时,充满学术氛围:没有主持人串场,没有冗长的嘉宾介绍,也没什么场面话,这是唐杰在办会时有意而为之的。几位嘉宾的观点都十分坦诚,听完之后,我们总结出了以下 8 个核心观点:
1、唐杰:Scaling(模型扩展)仍是有效路径,但可能是 " 人类最轻松的偷懒方式 "。真正值得探索的是让模型具备自主 Scaling 能力。
2、唐杰:DeepSeek 出来之后,Chat 范式的竞争就基本结束了。
3、杨植麟:Scaling Law 本质是把能源转化为智能,核心在于高效逼近智能上限。
4、杨植麟:模型承载的是价值观与品味,Scaling 是技术、数据与审美的共进,探索前沿智能不会因潜在风险而停止。
5、林俊旸:Manus 确实很成功,但套壳是不是未来,这本身也是个话题。
6、林俊旸:未来 3-5 年内中国团队做到全球领先的概率,在大概 20%,这已经是非常乐观的估计。
7、姚顺雨:垂直整合与模型应用分层两种模式在分化,模型公司做应用不一定更好。
8、张钹:当前大模型存在指称、因果等五大根本缺失。他强调 AGI 应有 " 可执行、可检验 " 的定义,核心是具备多模态理解、在线学习、可验证推理等五项能力。
一、智谱创始人唐杰:让机器像人一样思考,AGI 仍然需要新的模型架构与学习范式
清华大学教授、智谱创始人唐杰围绕 " 让机器像人一样思考 " 这一长期目标,系统梳理了他对 AGI 路径的判断。

1 月 8 日智谱上市当天,唐杰曾在内部信中提到,"直到今天,包括智谱在内,没有人能够给出准确的 AGI 定义以及如何实现 AGI 的技术路径,也许这正是探索 AGI 的魅力所在。"
基于这一判断,唐杰在本次演讲中系统性回溯了近年来基座模型智能化水平的演进,并结合中美开源模型的发展趋势,对当前大模型所处阶段及其面临的关键分岔进行了分析。

基座模型在典型 AI 基准测试上的能力演进
他回顾了 2025 年,谈及智谱已在语言、视觉、多模态智能体等方向开源 GLM 系列模型,助推中国模型首次集体霸榜开源榜单前五。
尽管如此,唐杰也坦言 " 我们的差距可能还在拉大 ",美国闭源模型仍是不可忽视的对手。
唐杰称," 我们是在开源上面玩了让自己感到高兴的,而差距并没有像我们想象得那样好像在缩小。有些地方,我们可能做的还不错,但我们还要承认自己面临的一些挑战和差距。"
那下一步 AGI 该如何推进,在他看来,需要回到对人类认知学习过程的理解。他认为,面向未来,大模型仍缺失多项关键能力,而这些能力在人类身上远远超过大模型。

唐杰谈及,"2025 年可能是多模态的适应年。可能全球除了少量的几个模型,一下子吸引了很多人,包括智谱在内的很多的多模态模型都没有引起关注。"
他将原生多模态能力类比为人类的 " 感统 " 能力,认为这正是模型下一步需要补齐的能力。
其次,唐杰强调,大模型在记忆和持续学习能力上仍然存在明显短板。如何构建从个体记忆到人类整体的 " 第四级记忆系统 ",是未来需要为大模型补齐的基础设施。
在更高层面,唐杰将反思与自我认知视为极具挑战、但值得探索的方向。
他将这一判断放入 " 人类认知框架 " 中进行解释," 人类认知是双系统,系统 1 和系统 2。系统 1 完成了 95% 的任务 …… 只有更复杂的推理问题 …… 这时候就变成系统 2 了。" 他认为,大模型同样需要构建系统 1、系统 2 以及自学习机制的协同。

系统一依赖大规模数据和参数的 Scaling,系统二则依赖推理、指令微调与思维链,而自学习机制则对应人类在无意识状态下的持续学习能力。
但唐杰也明确提到,单纯依靠数据和参数规模的 Scaling 已逐渐显露瓶颈," 我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面,这是一个新的问题。"
他认为,Scaling 仍然重要,但必须寻找新的路径,"Scaling 是一个很好的办法,但 Scaling 可能是最轻松的办法,是我们人类偷懒的一个办法。" 真正值得探索的,是让模型具备自主 Scaling 能力。
而面向真实世界,唐杰认为大模型还必须具备完成超长任务的能力。
最后,唐杰从计算机本体能力出发,给出了总结:" 在我看来计算机有三个能力:第一,计算机的表示和计算;第二,编程;第三,本质上是搜索。" 他认为,正是这三种能力的叠加,使计算机具备了走向 " 超级智能 " 的潜力。
在对 2026 年的判断中,唐杰也给出了较为清晰的技术聚焦方向。他直言,"2026 年对我来说更重要的是要专注和做一些比较新的东西。"
在他看来,Scaling 仍将继续,但重点正在发生变化,"已知的是我们不断加数据、不断探索上限。还有 Scaling 未知,就是我们不知道的新的范式是什么。"
围绕这一未知范式,唐杰强调模型架构层面的创新将成为关键,解决超长上下文,还有更高效的知识压缩问题,并会实现知识记忆和持续学习。
与此同时,多模态感统被他视为 2026 年的重点方向之一。只有具备这一能力,AI 才能真正进入长任务、长时效的工作环境,AI 才能实现具身,才能进入物理世界。
在应用层面,唐杰也对 AI for Science 寄予厚望," 我相信今年可能是 AI for Science 的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。"
二、月之暗面杨植麟:Scaling 不止堆算力,下一代模型技术、数据与 " 品味 " 会共同进化
月之暗面创始人兼 CEO 杨植麟认为,自 2019 年以来,大模型始终遵循同一条第一性原理—— Scaling Law,本质是" 把能源转化成智能 "。在数据与算力受限的背景下,如何用更少投入获得更高智能,成为核心命题。

杨植麟强调,Transformer 之所以成为主流架构,关键在于其更优的 Scaling 表现。
尤其在长上下文场景中,Transformer 相较传统架构展现出明显优势,而这正是 Agent 时代的基础能力。复杂任务必须依赖超长 Context,模型的 Position Loss 越低,Agent 潜力就越大。
围绕这一判断,Kimi 的预训练策略聚焦两条主线:Token 效率与长上下文能力。

在 token 效率层面,团队提出了改进的 Muon 优化器 Moonlight Muon,实现约 2 倍 Token 效率提升,并通过 QK-Clip 解决 Logits 爆炸问题,支撑万亿参数模型稳定训练。
在长上下文方向,Kimi-Linear 与全新的线性注意力机制,在保证效果的同时大幅提升推理速度,为超长 Context 任务提供现实路径。
杨植麟认为,更强的模型先验可以显著缩小搜索空间,使 AGI"更早发生"。
他同时提出,模型并非普通工具,而是在塑造一种世界观。他称,智能是一个 Non-Fungible Token(非同质化通证),它承载着品味、审美与价值观。Scaling 不只是堆算力,更是技术、数据与 " 品味 " 的综合进化。这正是下一代模型 K3 要做的事情——新架构、更大规模合成数据、品味提升等等。

他借用 Kimi 与他讨论时的话总结道:我们不应因风险而停滞,放弃探索,就等于放弃人类文明的上限。
三、阿里林俊旸:从语言模型到具身智能,千问为何走向 Generalist Agent
" 原来叫 Towards a Generalist Model,后来我改成了 Generalist Agent。" 林俊旸在演讲开场解释了 PPT 标题的变化。

他认为,相比模型本身,Agent 是一个更大的概念,像人一样能够自主使用工具,在环境中完成任务,这是他理解中 AI 应该走的方向。
林俊旸称,今天的大模型训练方式已不同于以往。" 以前训练模型就是配对输入输出、加上人工标注,这就是传统的做法。" 但在今天," 只要解决了推理,解决了评估,这个东西就可以扩展,很多事情都能做,我也可以发挥更多想象力。"
他坦言," 这也是我一个做语言模型的人,最近敢斗胆扬言‘我要做 VLA 和机器人’的一个小小原因。"
在讲述通义千问技术团队的下一步方向时,林俊旸概括了三项重点:
第一,是构建具备视觉输出与推理能力的 Omni 模型,把能力真正收敛到多模态模型中,不只是能接收文本、图像、语音,也要具备同时生成这些模态的能力。
第二,是从 " 训练模型 " 转向 " 训练 Agent",特别是通过 " 多轮强化学习和环境反馈 ",实现面向长时任务的推理能力(long-horizon reasoning)。
第三,是把语言模型进一步转化为具备行动能力的 Embodied 模型。

他认为,从这个角度出发,模型才有可能真正走向 Digital Agent,能够进行 GUI 操作、调用 API,形成完整的执行闭环," 如果再往物理世界走,能不能拿起话筒、斟茶倒水,这也是我们很想去做的事情。"
四、模型分化,范式未定:中国 AI 的领先之路与关键瓶颈
圆桌论坛中,唐杰、林俊旸、姚顺雨以及加拿大皇家学院院士、香港科技大学荣休教授杨强四人展开观点交流与碰撞,他们主要聊了四大问题:模型的分化、AI 研究的范式转变、Agent 的未来和中国在全球 AI 竞争中的位置。
(1)模型正在明显分化:做 Coding、做 Chat、做全模态,背后的逻辑是什么?
姚顺宇称,自己有两大感受。一是 To-C 和 To-B 明显发生分化。如今,行业里顶尖的 To-C 产品以 ChatGPT 为代表,Claude Code 则在 B 端有优势,但 ChatGPT 的变化对用户来说没有很可感,反倒是 Coding 革命重塑了计算机行业的行事逻辑。
在 To-C 领域,模型并不需要极高的智能上限,很多场景更像是 " 增强版搜索引擎 "。真正的瓶颈不在模型本身,而在于如何为模型提供足够的 Context 和环境信息。
在 To-B 场景中,逻辑完全不同。海外企业客户对最强模型的付费意愿更高,在国内做 To-B 的难度有点大,腾讯的思路是先把自己服务好,让模型在公司内部发挥价值。
姚顺宇观察到的另一大分化是垂直整合与模型、应用的分层。他称自己的老东家 OpenAI 在 Agent 应用上,做得并不一定会比应用公司更好。这是由于模型能力与应用能力并不完全一致。
在 To-C 产品中,模型与产品强耦合、快速迭代,垂直整合是成立的;但在更复杂的 To-B 或 Agent 场景,模型变强只是起点,真正落地还需要大量工程与环境建设。
林俊旸从千问的角度谈道,"分化并非选择,而是自然发生"。OpenAI 做的更像一个 To-C 平台型产品,Anthropic 与企业沟通更深,明显偏 B 端。他还提到一个现象,中美在 Coding Token 的消耗量上存在巨大差距,这种差距往往被低估,这困难反映了两个市场的区别。

杨强则从学术界和工业界的分化切入,他认为在行业进入稳态后,学术界可以开始解决工业界还没来得及解决的问题,有必要做新的探索,拉齐差距。
主持人提到,智谱某种程度上走了 Anthropic 的道路,无论是 Agent 研究,还是 Coding。不过,唐杰认为,最本质问题还是提高基础模型的智能上限。
他举了一个例子,在大模型刚刚兴起时,国内企业争相研发,但最终发布后,业内 10 来个大模型的用户其实不多,如今才逐渐分化,原因是这些模型并没有真正解决问题。
他认为,DeepSeek 出来之后,Chat 领域的竞争就基本结束了。智谱经过内部讨论决定押注编程,倾注了所有的精力。
(2)AI 领域下一个范式转变是什么,从哪儿来?
姚顺雨认为,ASI 最重要的能力之一是自主学习。但目前的瓶颈不在方法论,而在于数据与任务设计。ChatGPT 通过用户数据拟合人类聊天风格,本质就是一种自主学习;Claude Code 里 95% 的代码就是由 Claude Code 自身撰写的,这也是自主学习。目前外界对模型能力的感知不明显,只是因为其受限于场景,并且处于渐变的发展过程中。
林俊旸认为,目前,强化学习的算力远未充分 Scale,Test-Time Scaling 与 AI Scientist 方向都有巨大潜力。未来,模型的个性化、记忆的进步,都可能会给人们带来能力出现巨大飞跃的 " 感受 "。但是从业内视角来看,技术发展没有很快,做的工作也较为基础。
杨强提出,联邦学习与去中心化协作,是解决隐私、资源不均和大模型协同的重要路径。

唐杰则从一个更为基础的角度分析这一问题——范式转变究竟源自于什么地方?他认为,去年和前年,工业界快于学术界是一个事实,许多研究者根本没有算力。但到现在,很多学校已经有了算力,学术界可以开始做大模型研究、探索模型架构,不再是由工业界主导的状态。学术界有创新的基因,会孵化出种子了。
他补充道,创新的动因是现有范式收益效率的下降。继续 Scaling 是 " 最笨的办法 ",典型的工程做法,而未来探索智能效率也是一大方向。唐杰比较乐观,认为 2026 年肯定会有范式转变的发生。
(3)2026 年,Agent 怎么做?
姚顺雨观察到,Agent 赛道同样出现了 B 端和 C 端产品的分化。To B 方向已经进入持续上升通道,且短期内看不到放缓迹象。它并不依赖花哨的创新,而是通过不断扩大预训练规模、扎实做好后训练,把真实世界任务吃透,模型就会自然变得更聪明,并直接转化为更高的生产力和商业价值。
在 To B 场景下,模型智能、任务覆盖和收益之间高度正相关,目标极其一致。相比之下,To C 中模型能力与 DAU 等产品指标往往弱相关甚至负相关,反而更难聚焦。
当前 To B 的生产力型 Agent 仍处早期阶段,下一步关键在于环境与部署,而非模型本身。即使模型停止进化,仅靠大规模落地部署,也可能带来 10 – 100 倍效率提升,对 GDP 产生显著影响。
林俊旸认为,Agent 的发展本质上是一个产品哲学问题。他直言:"Manus 确实很成功,套壳是不是未来,这本身也是个话题 "。
他更认同 " 模型即产品 " 的方向。未来的 Agent 不应只是外部应用,而是模型本身直接承担产品能力,研究人员也需要像产品经理一样,把研究成果做成真实世界可用的系统。
随着主动学习的发展,Agent 将具备长时间托管式工作的能力,在执行通用任务的过程中自行进化、决定行动路径,这对模型能力上限提出了极高要求,也意味着做基础模型本身就是在做产品。
进一步来看,Agent 的潜力还取决于其与环境的交互深度,目前主要停留在数字环境中,未来若能进入真实物理世界、结合机器人与实验系统,才可能真正承担长周期、高价值任务。
关于通用 Agent 的机会归属,林俊旸认为取决于是否能解决长尾问题:若创业者是 " 套壳高手 ",在产品层面能做得比模型公司更好,那仍有机会;否则模型公司凭借算力、数据和强化学习,往往能更快覆盖这些问题。
杨强认为,Agent 的核心分化在于 " 目标 " 和 " 规划 " 是否由 AI 自主完成。他指出,当前阶段 " 目标也是人定义的,规划也是由人来做的 ",仍然非常初级。真正成熟的 Agent,应当能够通过观察人类工作、充分利用数据,最终成为由大模型内生的原生系统。
唐杰则强调 Agent 能否成立取决于价值、成本和速度三点。首先,关键在于 Agent 本身有没有解决实际问题,否则很容易被简单的 prompt 或 API 替代。
其次是成本约束,如果成本特别大,也是一个问题。最后是时间窗口 " 如果能拉开半年的时间窗,迅速把应用做出来,才可能形成优势。
在他看来,大模型竞争已进入拼速度、拼时间的阶段,Agent 等应用仍是方向,但成败取决于执行效率。
(4)3-5 年后,中国团队成为全球最领先的 AI 团队的概率有多大,文化、关键条件还差在哪儿?
姚顺雨认为,中国在工程能力、产业化和人才密度上具备显著优势,一旦技术范式被验证,往往能以更高效率追赶甚至局部超越,未来领先的概率很大。目前的关键瓶颈在于算力、光刻机与软件生态,以及 To B 市场和国际商业环境。
同时,他强调中国真正需要突破的是能否引领 " 新范式 ",这依赖更多敢于长期探索、容忍不确定性的研究文化,而非过度依赖榜单与短期确定性成果。

林俊旸相对谨慎,他认为中美在算力规模和研究资源投入上仍存在巨大差距,美国算力要多 1-2 个数量级。美国能将大量算力用于下一代前沿研究,而他称国内的交付工作就已经占据了很多算力。
但他也认为 " 穷则生变 ",软硬件协同、模型与芯片共设计可能孕育新机会。他认为未来 3-5 年内中国团队全球领先的概率在大概 20%,并且这已经是非常乐观的估计。
不过,他并不恐惧这种差距,而是建议业内保持冷静的心态,并回归初心,考虑模型能为人类社会带来什么价值。他称,就算自家模型不是最强的也能接受。
杨强从历史视角出发,认为中国在互联网与应用层曾实现快速追赶,AI 作为通用技术同样具备潜力,尤其在 To C 领域百花齐放,To B 也将通过工程化与知识迁移逐步成熟。
唐杰则指出代际变化带来的希望:90 后、00 后更具冒险精神,若营商环境与资源配置进一步改善、个人长期坚持,中国 AI 创新仍有现实机会。
五、清华大学张钹院士:AGI 要有 " 可检验 " 的定义,大模型有五个根本缺失
听完前面几位嘉宾的分享,已经 91 岁的中国人工智能研究先行者、清华大学教授张钹院士临场做了一份 PPT,回应了 " 从语言模型到 AGI" 的几个关键问题。
他认为,大模型虽然能生成流畅语言,但它基于的是近似的语义定义,本质上只是把词语周围出现频率最高的词,变成向量空间的几何结构。

而这种建模方式不可避免地带来五类缺失:指称缺失、因果缺失、语用缺失、多义和动态语境缺失,以及闭环行为缺失。这些缺失直接影响语言模型做应用的能力。
同样,面对 " 从语言模型走向 Agent" 的行业趋势,张钹院士还提出,应该抛弃模糊、不可执行的 AGI 定义,重新建立一种 " 可执行、可检验 " 的标准。

他认为," 大家都说 AGI,因为 AGI 很有吸引力,这里有一个误导,大家以为做 AGI 都要做通用,其实 AGI 确实强调通用,但是跟我们目前想做的事不是一回事,但现在大家都这么用,我们也只好这么用。"
例如,马斯克说:" 我们人类 70% 以上的任务,机器都会干,而且达到或者超过人类的水平 "。这样的说法,既无法执行,也无法验证,容易造成误解。
" 什么叫做达到人类水平?时变率超过人类,算不算达到人类的水平,有的人说算,有的人说根本不算,如果鲁棒性从其他方面来看差得远。" 他反问道。
他认为应该有一个 " 可执行、可检验 " 的 AGI 定义,核心是五个能力:时空一致的多模态理解与落地、可控的在线学习与适应、可验证的推理与长期执行与规划、可校准的反思与元认知,以及跨任务的强泛化。他说," 按照这个定义,应该是可以指导我们往前做的。"
同时,张钹院士还提醒,真正需要治理的不是 AI 本身,而是 " 研究者和使用者 "。他认为," 这里头,涉及到我们人工智能时代的企业、企业家应该担负什么责任。"

他称,过去并不鼓励学生创业,但现在认为 " 大模型改变了一切,最优秀的学生应该去搞企业 "。
在他看来,AI 时代的企业家不只是做产品服务,而是要把知识、伦理和技术变成可复用的工具,推动 AI 像水电一样服务全社会。他觉得这是一份 " 光荣而神圣的职业 "。
结语:关于 AGI 的方向、形态与边界,仍在不断厘清
从 "Scaling 还够不够用 ",到 "Agent 是不是只是套壳 ",再到 " 通用智能能不能被可检验地定义 ",这场 AGI-Next 峰会展现了当前中国 AI 技术领军者们对下一阶段智能路径的分歧与共识。
可以看到,在模型发展路线图上,有人继续押注更长上下文、更强推理、更稳训练的工程演进,也有人开始强调新架构、新记忆范式和 Embodied 模型。
在产品形态上,有人坚持 " 模型即产品 ",也有人探索更强执行力与主动性的具身体系。而在 AGI 定义本身上,更有学界前辈呼吁回到 " 可执行、可验证 " 的概念,拒绝空泛与误导。
谁能在范式变动中明确方向,在落地节奏中建立真实优势,或将成为决定接下来几年 AI 格局的关键变量。


登录后才可以发布评论哦
打开小程序可以发布评论哦