字母AI 12小时前
姚顺雨“露脸”,和唐杰杨植麟探讨AGI之路
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 我相信今年可能是 AI for Science 的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。"在昨日举行的 AGI-Next 前沿峰会上,清华大学教授、智谱首席科学家唐杰这样说道。

据了解,该峰会由清华大学基础模型北京重点实验室发起,旨在探讨全球 AGI 发展的新范式与面临的挑战。

活动还邀请了 Kimi 创始人、CEO 杨植麟,阿里 Qwen 技术负责人林俊旸,加拿大皇家学院院士、香港科技大学荣休教授杨强,以及此前被腾讯高调官宣的 CEO 首席科学家姚顺雨参与了报告和分享,中国 " 开源四杰 " 一次聚齐了三家。

" 开源四杰 " 是 DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达给出的定义,他曾在社媒上表示,尽管美国在顶尖闭源模型上保持优势,但在开源领域,中国的 DeepSeek R1、Kimi K2、Qwen3 和 GLM-4.5 等模型已经领先于美国最好的开源产品。

最近一段时间,中国大模型企业也在资本市场上动作不断。就在本场峰会举办的前三天,智谱刚刚在港交所敲钟上市。本周,智谱股价已上扬至 158 港元,市值来到 700 亿港元。

而在几周前,月之暗面方面宣布刚刚完成了一轮 5 亿美元规模融资,投后估值来到 43 亿美元。

" 开源四杰 " 中未能在本次活动现身的 DeepSeek,也在近期传出将在今年 2 月中旬推出 DeepSeek V4 的传闻,外媒报道称其将具备更强的编码能力。

2026 刚刚开年,中国大模型围场已经热闹起来。

01" 大模型应对 GDP 产生5%-10% 的影响 "

在圆桌座谈环节,姚顺雨并未现身活动现场,而是远程加入了这场关于 AGI 新范式的讨论。

" 对于 ToC 来说,大部分人不需要用到这么强的智能。今天用 ChatGPT 和去年相比,写交换代数和伽罗瓦理论的能力变强了,但是大部分人基本感受不到。" 在谈及对模型路线分化的看法时,姚顺雨表示,大模型在 ToC 和 ToB,以及模型和应用分层两个维度上,都发生了明显的分化。

"AI Coding 夸张一点来讲,已经在重塑整个计算机行业做事的方式,人不再是写代码,而是用自然语言和电脑去交流。" 在姚顺雨看来,ToB 行业正呈现一个模型分化趋势,即大部分用户其实更倾向于用最强的模型。" 最好的模型是 200 美元 / 月,第二强或者差一些的模型是 50 美元 / 月、20 美元 / 月。我们发现像很多美国人愿意溢价用最好的模型。"

在姚顺雨看来,AI 在 ToC 应用上的垂直整合已经看到效果,无论是 ChatGPT 还是豆包,模型和产品是强耦合、紧密迭代的," 但对于 ToB 而言,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西,应用好的模型在不同的生产力环节。"

" 这一仗从 DeepSeek 出来之后,已经结束了。" 说起模型分化,唐杰坦言,DeepSeek 在 2025 年初的横空出世,已经终结了大模型排队做对话和搜索的时代,让他开始思考下一阶段一定要 " 让 AI 做一件事情 "。他表示,在和团队争论很久后,才决定把重心放在 Coding 上。

而在谈到当下 RL(强化学习)正成为行业主流训练方式时,尤其是 RLVR(编者注:可验证奖励强化学习,一种在既定标准下的机器自主学习),姚顺雨给出了他的观察。

" 现在自主学习是一个非常热门的词,在硅谷的大街小巷,甚至路边的咖啡馆里,大家都在谈论。" 谈及模型自主学习的技术路线,姚顺雨表示,自主学习会面临 " 在什么场景下,基于什么奖励函数做 " 的问题,比如掌握某一业务场景的代码能力,和学习某一种自然科学,是完全不同的自主学习方法论。

" 这个事情其实已经发生了。" 姚顺雨提到,OpenAI 就在利用用户数据不断弥合人聊天的风格,Claude 已经为自身这个项目完成了 95% 的代码,这都可以算是一种自主学习。

在姚顺雨看来,自主学习在过去一年中已出现清晰信号。他提到,Cursor 团队已在真实环境中,实现按小时级别用最新用户数据持续学习与迭代,尽管受限于预训练能力,整体效果仍不及 OpenAI,但路径的可行性已被证明。

" 我对今年会有非常大的范式革新有信心,在持续学习、模型记忆能力,甚至多模态领域,都有可能出现新的范式变革。" 在唐杰的表述中,这份信心来源于在大模型研发领域,学术界正在跟上工业界的脚步。

" 两年前,一些高校老师手上都没有卡(算力),如今很多高校都有了算力配置,也开始进行大模型架构、持续学习的相关研究。" 在唐杰看来,学术界已经加速铺开 AI 研究的土壤,有望孵化出新的创新种子。

" 一个创新的出现,一定是某个事情有大量的投入,并且它的 Efficiency(这里指模型训练的投入产出比)到了瓶颈。" 唐杰进一步解释这一观点。他表示,如果 AI 行业继续 Scaling,尽管这样做仍会有收益,但当成本到达某一个数量级,就需要训练范式的创新。

" 一方面既然要 Scaling up,Scaling 肯定会带来智能上界的提升;但同时应该定义 Intelligence Efficiency,即智能的效率,用更少的投入获得智能的增量。" 唐杰这样总结他对未来模型训练范式的观察。

另一边,作为 Agent 领域的知名研究学者,姚顺雨也分享了他对 Agent 迭代的前瞻。

" 目前看来,ToB 或者说生产力 Agent 才刚刚开始。"姚顺雨表示,即使今天开始,世界上所有的模型训练全部停止,但是把这些模型部署到企业中,已经能带来 10 倍甚至 100 倍的收益。" 大模型应对 GDP 产生 5%-10% 的影响,但是今天它对 GDP 的影响还不到 1%。"

而在唐杰看来,判断一个 Agent 的功能逻辑是否成立,首先要看它是否真正解决了对人有价值的问题。早期不少 Agent 看似复杂,但最终发现通过更好的 Prompt 或基础能力即可完成,独立 Agent 的存在价值随之消失。

" 基座的应用永远是矛盾。" 唐杰表示,如果实现成本过高,而调用现成 API 就能解决,Agent 的合理性就会被削弱;但一旦需求价值足够大,基座模型又可能把能力直接吸收进来。

对于 Agent 的演进,加拿大皇家学院院士、香港科技大学荣休教授杨强将其划分为四个阶段:从目标与规划均由人定义,到逐步由模型参与,再到完全由大模型内生完成。他指出,当前阶段的 Agent 仍高度依赖人工设定,本质是工具化系统;真正的拐点在于模型开始观察人类工作并利用真实数据,进而自主生成目标与行动路径。

对于 Agent 的未来,杨强给出了他的定义:"Agent 应该是由大模型内生的一个 native 系统。"

" 很多时候不是说人类替代了人类工作,而是会使用这些工具的人,在替代那些不会使用工具的人。" 姚顺雨的另一个观察,来自 AI 时代大众对大模型认知的参差。

" 今天中国能做到一个很有意义的事情,是更好的教育,教育大家怎么更好地使用大模型产品。" 姚顺雨如是说道。

02 Scaling 仍在继续,但训练范式在变

" 今年是 RLVR(可验证奖励强化学习)爆发年。" 谈及 Scaling 模式的进化,唐杰表示,在 RLVR 爆发之前,行业内只能通过人类反馈数据来做,但人类反馈的数据中 " 噪音 " 也非常多,而且场景也非常单一。" 但如果我们有一个可验证的环境,就可以让机器自己去探索、去发现反馈数据,实现自我成长。"

唐杰所说的 RLVR,是指在推理训练中,只对模型最终是否完成目标给反馈,而不评判表达方式或推理风格。系统会依据预设规则自动判断结果:如数学是否得到唯一正确解、代码是否通过测试。模型在多次尝试中,仅当结果被验证成功时才获得奖励,失败则不奖励,从而调整其推理策略。

RLVR 的反馈可自动生成、标准一致,因此同一套推理任务可以被反复、大规模(scaling)用于训练。

" 大家可能会问,是不是智能越来越强,我们直接把模型不停地训就行了?" 在报告环节,唐杰抛出了这样一个问题。他表示,2025 年初,DeepSeek 的横空出世给了业内很多 " 震撼 ",标志着大模型已经基本解决了 Chat(对话)和搜索部分," 这个范式可能基本上快到头了,剩下更多的反而是工程和技术上的问题。"

" 今天(行业内)训练的范式发生了很大变化。过往我们不管做什么事情,都会由人工将输入和输出标注出来。" 在发言中,阿里 Qwen 大模型负责人林俊旸同样提及了模型的训练范式。他表示,早期训模型时,只要有标注的数据,有 " 输入 " 和 " 输出 " 就可以进行训练," 现在则是要把更多的数据,放到实验中去训练。"

林俊旸以 xAI 为例进一步解释了这一观点。xAI 团队此前在直播中透露,Grok 4 在 RL(强化学习)阶段投入的算力,是市面上其他任何模型的 10 倍以上。

" 如此大规模的 RL 的数据,我虽然觉得他们有点浪费,但另一方面也意味着 RL 有很多的想象空间。" 林俊旸说道。

" 我们发现可能基于 MUON 二阶优化器,它的效果会非常好,体现在它有两倍的 Token Efficiency 的提升。" 在月之暗面 CEO 杨植麟的分享中,他反复提到 Token Efficiency 这个概念," 你的 Token Efficiency 越高,意味着你可以用尽可能少的 Token 得到一样的效果。"

杨植麟提到的 Muon,是一种用于大模型训练的优化器。在训练过程中,模型会不断计算预测结果与正确答案之间的误差,优化器的任务就是根据这个误差,计算参数该如何更新。优化器不决定模型上限,但会直接影响训练所需的 Token 数量和算力成本。

" 我认为基于先验实现 AGI,可能会更早发生。" 总结个人观察时,杨植麟表示,Agent 训练本质是一个搜索问题:在大量可能的行动与推理路径中,找到有效解。更强的基础模型和预训练,相当于提供更好的先验(Prior,已有知识与约束),能提前排除大量无意义或错误的尝试,从而减少搜索空间、提升 Token Efficiency。

" 什么是 Agent 最基础的能力?是编程,(任何)计算机完成编程动作,就可以执行。" 唐杰这样解构 Agent 的技术逻辑。他在现场举例说明,不管是 Claude 的 Computer Use,还是几周前刚刚发布的豆包手机助手,抑或是名声大噪的 Manus," 异步 " 执行都是一个关键属性。

" 帮我搜集一下,今天关于清华大学在小红书上所有的讨论,然后将关于某某的全部整理出来,生成相关的文档。" 唐杰举例说明,像这样一个任务,往往要经历几十步,甚至上百步流程。AI 必须在后台自动运行、持续判断与执行。换言之,大模型在 Agent 和 Coding 上的能力,将是一个映射在 Device Use(设备端侧使用)上的命题。

在总结环节,唐杰进一步阐释了他的理念," 在我看来计算机有三个能力:第一,计算机的表示和计算;第二,编程;第三,本质上是搜索。" 他认为,正是这三种能力的叠加,使计算机具备了走向 " 超级智能 " 的潜力。

回到训练层面上,唐杰坦言,他认为 Scaling 仍将继续,但重点正在发生变化," 已知的是我们不断加数据、不断探索上限。还有 Scaling 未知,就是我们不知道的新的范式是什么。"

03 做大模型要敢于冒险,走出榜单的束缚

展望下一个 AGI 的范式和行业未来,唐杰毫不掩饰作为 AI 研究学者的审视态度:" 我们做了一些开源的成功,可能有些人会觉得很兴奋,觉得中国的大模型好像已经超过美国了,但可能真正的答案是,我们的差距目前并未缩小。"

正视挑战和差距的同时,唐杰也分享了他眼中的国产模型发展方向。在他看来,2025 年只是多模态适应的适应期。未来关键在于,模型能否像人类一样,把视觉、声音、触觉等信息统一整合,形成原生、多源协同的整体感知能力,这是多模态能力跃迁的核心难题。

唐杰进一步指出,大模型在记忆、持续学习与自我认知上仍明显不足。当前模型缺乏分层记忆结构,如何把个人记忆扩展为可长期保存的人类集体知识,并在此基础上探索反思与自我认知能力,将是下一阶段最具挑战、也最值得投入的方向。

" 目前的模型已经有一定的反思能力,但如何形成自我认知还是很难的问题。" 唐杰表示,对于大模型是否能有自我认知,在基础模型研究领域一直都存在争议," 我觉得模型的自我认识是有可能的,这个领域值得我们探索。"

" 在国内,大家对于刷榜或者数字看得更重一些。" 在对话中,姚顺雨对当下的 AI 研究文化也给出了个人视角的观察。他以 DeepSeek 为例阐述这一观点:" 他们(DeepSeek)就没有那么关注榜单的数字,反而会更注重:第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。"

他进一步举例,Claude 可能在编程或者软件工程的榜单上并非排名最高,但却获得了业内公认的好评。" 这需要大家能够走出榜单的束缚,在体验上去感受是不是正确的过程。"

" 我们到底能不能引领新的范式,这可能是今天中国 AI 产业唯一要解决的问题。" 姚顺雨坦言," 其他所有做的事情,无论是商业、产业设计还是做工程,我们某种程度上已经比美国做得更好。"

" 我还是挺乐观的。" 这位 1998 年出生的 AI 顶尖学者表示,任何一个新业态一旦被发现,在中国就能够很快复现,甚至局部做得更好," 在制造业、新能源车领域,这样的例子已经不断发生。"

在唐杰看来,中国 AI 产业的机会,在于聪明且敢冒险的年轻人,在于持续改善的营商环境;而在产业中的每个人身上," 就是我们能不能坚持,能不能在一条路上敢做、敢冒险。"

评论
大家都在看