猎云网 12小时前
反思OpenAI 路线:AGI 的价值不在于“替代员工”,而在于“发现新知”
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当华尔街和硅谷都在计算 AI 能替代多少人类劳动力时,盛大创始人陈天桥提出了一个反直觉的商业洞察:人类文明的飞跃,从来不是靠把旧工作做得更快,而是靠发现前所未有的新规律 。

目前主流的 AGI 定义带有强烈的 " 功能主义 " 色彩—— OpenAI 将其定义为在经济价值工作上超越人类的系统 。但陈天桥认为,这是一种短视。如果 AI 只是模仿人类现有的行为(行为主义)或替代现有工作(功能主义),它就永远无法超越人类已知的知识边界。

真正的万亿级商业机会,隐藏在 " 理科大模型 " 中。陈天桥指出,AGI 的终极产物不应该是新的文案或代码片段,而应该是 " 新知识 " ——新的定理、新的材料、新的药物、新的工艺 。这些领域容不得半点 " 幻觉 "。在医疗、工程、决策领域,99% 的准确率不是面子指标,而是 " 可质押、可签字 " 的商业门槛 。低一个点的可靠性,意味着烧掉数亿的工程预算或错失关键的药物研发窗口。

陈天桥旗下的 MiroMind 正在通过 BrowseComp 等项目验证这一逻辑:不追求在聊天测试中拿高分,而是追求在长链路任务中通过 " 时间序列上的反复求证 " 来获取 Truth(真相) 。

对于投资人和企业家来说,这是一个重要的信号:基于 " 文科模型 " 的内容生成赛道可能很快会陷入红海竞争,而基于 " 理科模型 " 的科学发现和复杂决策赛道,虽然门槛极高(需要 300 步推理准确率),但这才是 AGI 能够创造增量价值的蓝海。

以下为陈天桥博文全文:

言语道断,因果自现——我心中的 AGI 是什么

过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越 " 像人 ";HLE 之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:" 所谓 AGI、大一统的通用智能,大概也就差不多了。" 但在我看来,这是一场美丽的误会。

为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是 " 文科大模型 "。它以语言生成与文本一致性为中心,把知识组织成 " 像真的叙述 " 和 " 像对的答案 "。它的价值在于 " 模拟 ":它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但是即便它能解奥数、HLE 也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。

但我一直坚信,人类真正需要 AI 去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是 " 写出来 " 的,而是被外部世界 " 确认出来 " 的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是 " 说得对不对劲 ",而是 " 这个假设能不能被现实否决或确认 ";它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为 " 理科大模型 "。它的价值在于 " 发现 "。

需要澄清一点:我说的 " 文科 / 理科 ",不是两种模型的物种差异,而是两种默认动作的差异:文科大模型倾向给出一个 " 看起来不错的最终答案 ",理科大模型倾向先给出一组可证伪的假设,并同时给出把这些假设变成证据的路径;文科模型在不确定处更容易把答案 " 凑圆 ",理科模型在不确定处更像本能地停一下,然后去查证、去拆解,把问题拆成可验证的小问题;理科模型把因果当作第一公民,回答 " 条件改变后会发生什么 ";理科模型还必须有可累积的长期记忆,把每一次验证得到的结论以可追溯的方式写回去。总之,理科模型更像一个握着手术刀的外科医生:在无数方案里,识别哪一刀真正触及因果红线;它知道,一旦切下去,现实会给出最诚实、也最残酷的反馈,形成真正的因果闭环——这种对 " 真实代价 " 的敬畏,正是两种范式之间最本质的鸿沟。

所以,真正决定 AGI 应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的 " 灵魂伴侣 ",还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的 " 因果明镜 "?我认为是后者。所以,实现 AGI 不是为了再造一个更会聊天的会生成的系统,而是为了打造一种 " 会发现 " 的智能。

让我们带着这样的价值观去审视一下现有的 AGI 定义的主要流派。一种是行为主义范式,源于图灵测试,认为 AGI 的标准是 " 机器表现出的行为与人类无法区分 "。这是目前大众最直观的评判标准。但如果一个 AI 只是在模仿人类说话,它永远无法告诉我们那些人类还没发现的真理。第二种是功能主义范式。以 OpenAI 为代表,定义 AGI 为 " 在大多数具有经济价值的工作中超越人类的自适应系统 ",侧重于对人类劳动力的替代能力。但人类文明的每一次飞跃,都不是靠把旧工作做得更快,而是靠发现前所未有的新规律。第三种是能力分级范式。以 DeepMind 为代表,将 AGI 分为从 "Emerging" 到 "Superhuman" 的五个层级,核心指标是在广泛且未见过的任务中的 " 泛化能力 " 与 " 表现分值 "。可现实世界不是考场,没有标准答案,真正的智慧是要在没有考卷的地方,自己找到那条正确的路。当然还有一些其他的范式都或多或少存在上述问题。

那么我心目中 AGI 目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近 99% 级别的整体正确率,并通过形式化和工具链把每一步推理 " 钉死 " 为可检查的证据,最终对任意复杂问题给出闭环解决方案。

为什么我们死磕 "300 步 "?我们必须先定义推理的最小单位——标准原子步(SIU, Standard Inference Unit),作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到 98%,哪怕每一步都能做到这个最高水平,300 步后的端对端成功率也只有 0.23%,已经接近归零。这意味着在 300 步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠 " 看起来合理 " 的续写去蒙混过关。所以我认为 300 步是独立解决复杂现实问题的 " 跨度起点 "。

为什么 99% 必须是硬杠?因为发现式系统不是用来 " 聊天 ",而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是 " 答错题 ",而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。99% 不是面子指标,而是 " 可质押、可签字 " 的门槛。

所以,我心目中的 AGI,是能在 300 步的逻辑长征中,靠自我纠错熬过 " 概率死亡 ",最终抵达地图之外的起点。从这里开始,AGI 就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。

当然,我并不认为这是一条 " 喊口号就能到达 " 的路线。把目标钉在 "300 步仍保持 99% 可靠性 ",本质上是在主动面对三个工程硬点:长链误差累积、开放世界验证缺口、以及组合爆炸下的预算约束。正因如此,我们在工程上必须进行解剖,将推理过程分为两层:逻辑生成层与检验层。生成层负责 " 想 ":将大问题递归地拆解,直到细化为原子级操作,我们还要做检验层负责 " 查 ":对每一个原子步通过工具、仿真或外部数据逐一验证。一旦某一步不过关,系统就在局部进行回退和重生成,而不是推翻整条推理链。

MiroMind 已经在这条路走出了第一步。以 BrowseComp 为例,MiroMind 仅用 235B 参数模型就给出了 SOTA 的成绩,它的意义不在于 " 分数本身 ",而在于证明了一个工程事实:我们正在把推理从 " 单次生成 " 推进到 " 时间序列上的反复求证 "。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的 agent/ 环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是 " 通用求解器 " 的第一块地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。这个过程沉默、缓慢、严谨、甚至有点残酷,它抛弃了人类语言的精妙模仿,却在枯燥、严苛、却能被现实反复复现的因果闭环中,缓慢破土而出,即使有耐心资本的加持和理想主义的坚守,这也会是一个非常痛苦的过程。

佛经里有个词,叫 " 大圆镜智 "。说的是一个人的心若能修到像一面大圆镜,就能如实照见万物因果,不被尘埃遮蔽,不被偏见扭曲,这是智慧的最高境界。我对这个智慧一直很向往,甚至创办的科普视频号也取名叫做大圆镜。而我心中的 AGI 就是一个无限接近 " 大圆镜智 " 的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的 AI 时代,我们需要一面只对 " 因果和真相 " 负责的镜子。

评论
大家都在看