

内容来源:2026年3月7日,在深圳举办的笔记侠PPE书院西哲坊03期第3讲【真理与决策】内容笔记。
分享嘉宾:苏德超,武汉大学哲学学院教授、博士生导师、笔记侠PPE书院创始顾问、西方哲学模块全程授课导师。
高级笔记达人 | 李云
责编 | 贾宁 排版 | 拾零
第 9511 篇深度好文:7682 字 | 20 分钟阅读
哲学思维
笔记君说:
AI正在以惊人速度接管我们的工作流程,但它也正在成为决策失误的放大器。当所有人都沉浸在"效率革命"的惊喜中时,一个危险的真相被忽略了:AI不会帮你承担责任,它只会在你犯错时,让你错得更快、更彻底。
3月7日,武汉大学哲学学院教授、笔记侠PPE书院创始顾问、西方哲学模块全程授课导师苏德超老师,在笔记侠PPE书院西哲坊03期的课堂上为我们拆解了科学决策的底层逻辑。
他讲透了为什么找不到中间变量的措施,全是无效的坏措施;再深挖了大模型幻觉的核心成因,还拆解用AI做决策最容易踩的3个致命坑;更点破一个扎心真相:比AI幻觉更可怕的,是我们人类的主动幻觉。
文末还有可直接落地的4步核查法,帮你建立一套可追溯、可纠错的决策系统,在不确定的世界里,做出真正稳准可控的判断,做自己决策的主人。
希望今天的分享,对你有所启发。
一、所有靠谱的决策,
都必须找到中间变量
所有的因果关系,都应该找到一个中间变量,找不到中间变量的措施,都是坏措施。
比如,"通过老师的辅导,我孩子就变好了"这句话,就值得推敲。
很多经过老师辅导的孩子并没有变好。老师的辅导改变了孩子的"什么",孩子才变好了?重要的不是老师的辅导,而是这个"什么"。要把这个"什么"找到,一定要找到中间变量。
找不到的中间变量,是什么?那是爱,那是信仰,爱是没有中间变量的,它是最直接的。但是我们所有人类可以操作的东西,都是在操作中间变量。

所以做决策,一定要找到中间变量。没有中间变量的决策,就跟表白似的:"我爱你",对方问"为什么爱我",你说不出个所以然,这对爱有意义。因为真爱拒绝中间变量。
你要是说"我图你有钱",对方大概率不喜欢;你说"我图你长得漂亮",对方可能会喜欢,但也只是一阵子。不一定总有钱,也肯定不会一直漂亮。
传闻中华尔街投资客说:永远不要为异性的漂亮买单。为什么?因为漂亮太容易贬值了,我们要购买的是不贬值、能保值的东西。
眼下黄金为啥越来越贵?就是因为它保值。而美丽呢,贬值速度特别快,年纪一上来就挡不住,哪怕靠化妆、整容也没用,胶原蛋白只会以肉眼可见的速度流失。
这就是中间变量的重要性。决策必须找到它。不要只说"因为A,所以B",一定要在A和B之间找到C。
中间变量找得越多,你出错的可能性就越小。因为中间变量多了,就给你留了回头的机会,它是一个指标,一旦某个中间变量变了,你就知道"坏了,我可能错了"。
举个例子,要是你只盯着A到B,哪怕A还没到B,你还会傻傻等;但如果是A先到C再到B,而C根本不可能出现,你就不用等了,直接掉头就行,不用浪费时间。

在经济和科学领域,不存在"没有中间变量"的情况,只有情感和信仰是例外。比如你的孩子爱你,没有任何中间变量,就是纯粹的爱,不为什么。这是人类最宝贵的情感,它恰恰不需要中间变量。也许有吧,我们希望没有。
但我们做决策、搞管理,必须有中间变量,不然就无从研究、无从把控。管理本身就是过程,要是连中间环节都没有,那根本不会有科学的决策。
二、AI为什么会一本正经地胡说?
说到决策的科学性,就不得不提AI。
我们需要注意:AI输出的不是事实,因为AI并不直接接触世界,它接触的都是数据,而且还是二手数据。
我们人类去做调查,拿到的是一手数据。AI接受的,就是我们调查结果的二手数据,而且这些数据还经过了所谓的"清洗"。它自认为是清洗,你怎么知道不是越洗越脏呢?
当然,AI也有厉害的地方,就像做阅读理解,好学生和差学生不一样:差学生可能匆匆做完所有题,好学生却能精准提炼核心,从数据中提取、压缩后还能保证正确,这是一种非常高级的能力。
但到目前为止,AI能不能保证,在决策链条中必须有可追溯、符合人类认知的确凿证据(grounding evidence)?如果没有,它就会把幻觉当成情报。
OpenAI团队在2025年7月出了一篇文章,标题是《why language models hallucinate?》(为什么大语言模型有幻觉),专门讲了大语言模型产生幻觉的原因。
文章首先定义了幻觉:就是语言模型会自信地生成"看起来合理,但实际上不真实"的事实。早期的大模型主要基于概率生成内容,现在它们的逻辑推理能力已经很强了,大模型的水平甚至能达到国际奥林匹克竞赛金奖的级别。
所以回头想想,我们应该教孩子什么?国际奥林匹克竞赛金牌的大模型,过几天大家可能很快就能用到了,你物理强、化学强不算什么,现在大家拼的核心是什么?

这篇文章的核心观点就是:大模型之所以会出现幻觉,是因为主流的训练和评估机制,往往奖励"猜测",而不是承认"不确定",这种激励机制从根本上推动了幻觉的形成。
这就跟我们高考前,老师跟我们说的一样:哪怕这道题不会,猜都要猜,万一猜对了呢?训练早期大模型也是这样:用户问答案,哪怕不知道,也得猜一个,猜对了客户就会认同,猜错了也没关系。
所以第一代、第二代大模型,全都是这么干的;但现在的最新版本不一样了,它会直接说"这个问题我不确定,不能给你回答",已经能做到这一点了。
还有一个关键点:我们问AI的时候,永远要加一句"你不要急于做出判断,要是觉得缺哪些信息,就问我,确保得到足够信息后再做判断",它就真的会主动问你问题。
一定要加这句话,现在AI已经能做到了,这都是那篇文章发表之后的进步,因为大家都意识到了"猜答案"的问题,在此之前,一旦不确定,它就是一味地猜。
不知道答案还去猜,有概率蒙对,但如果直接说不知道,肯定得不了分。与其得不了分,不如猜一猜还有可能得分,这是很简单的推理。
有三种回答:答对、答错、弃权。弃权体现的是谦逊,但早期的大模型训练,并不给"谦逊"赋值,也就是说,谦逊得不到任何奖励。要么答错被惩罚,要么答对被奖励,要是说"不知道"(弃权),也会被惩罚。既然都是被惩罚,那不如去猜一猜,还有可能蒙对,这就是早期大模型总爱猜答案的原因。
可见,只看准确率会掩盖模型的错误与幻觉问题,这是早期训练方式带来的缺陷,单纯用准确率打分并不合理,后来则更注重真实可靠性。
在复杂的真实场景中,模型准确率不可能长期达到100%,因为存在信息缺失、问题歧义、能力边界等客观限制。因此,想靠追求满分准确率来消除幻觉并不现实,幻觉本质上无法彻底消除。

这一点已经被论证:大模型不可能完全消除幻觉,就像人类也永远无法杜绝犯错一样。承认幻觉不可消除,才是科学的认知。
从机制上看,幻觉和大模型"下一个词预测"的预训练方式直接相关。模型学习的是语言模式与词向量分布,而很多低频、冷门的事实知识没有稳定规律,预测本身就容易出错。
幻觉源于能力边界与信息缺失,所以无法根除。只有拼写、括号匹配这类强规则任务,会随模型优化越来越准确;而生日等冷门知识的任务,仍然容易输出看似流畅、实则不可靠的内容。
所以结论很明确:与其只增加少量新测试题,不如重构行业通用的核心评估指标,让整个行业从奖励"敢猜"转向奖励"诚实表达不确定"。
这篇文章发表后,大模型的表现确实改善很多:现在它真的会老实说"我不知道",而不是随便乱编。
放到组织和企业里也一样:不知道就说不知道,反而更好。
明确说"我不知道",大家才会意识到:这里缺信息、缺数据、缺推理。如果明明不懂还硬猜,一个人猜、两个人附和,第三个人也跟着同意,最后全员拍板下注,风险极大。
三、用AI做决策,
最容易踩的3个致命坑
我们先看组织里对AI的误用,再看组织幻觉。
第一个坑:把AI当权威,把流畅自信当成正确
首先,是把AI当权威,把表达流畅、自信、速度快当成正确性与可追责的结论,就如我们直接用龙虾(openclaw),虽然它是我们放大的工具。从哲学本身来看,可能带来两个挑战。
AI会严格执行你给的策略和指令。可一旦你的策略本身就是错的,AI只会更高效、更精准地把错误执行到底,你还很难及时发现,直到酿成灾难性后果。

AI本质上只是在提升执行效率,不会主动更新你的底层逻辑。任务是你派的,团队是你搭的,老板一开始就错了,AI只会帮你错得更快、更彻底。
这也是AI和人类员工最大的区别:人有情绪、有判断,会提醒、会反驳,你能感知到风险。但你把AI训练得越"听话",它越没有情绪、不会质疑。
我们训练AI工作流时,追求的是流畅、自信、响应快、执行力强。但前提一旦错了,AI根本不会质疑你的出发点;真要让它随便质疑前提,效率就会极低。
这也意味着:前提的讨论、哲学与管理的底层逻辑,会变得无比重要。只要底层不错,AI就不会放大错误;底层一错,AI就是错误的加速器。一根杠杆并不区分两头的内容。
第二个坑:把AI当事实库,不做溯源和核查
你搭建的AI工作流,本质上还是依赖大模型。而大模型的幻觉问题依然存在,无法彻底消失。
就算让多个AI之间相互对话、交叉验证,幻觉也不会消失,甚至可能错误叠加、越放越大。正确的信息很难指数级放大,但一个小错误,却很容易被不断放大,这是极度不对称的。
古人说,千里之堤溃于蚁穴。不能掩盖错误。一个幻觉可能越放越大,就形成了蝴蝶效应。蝴蝶效应往往是负面效应扩大,正面的很难有扩大。

所以,我们养"龙虾",用AI,都要注意底层不能出错,否则幻觉可能持续放大。
不要把AI当权威,也不要把AI当事实库。AI没办法给我们事实,一定要去追溯它的来源。
当然,养"龙虾"可以部分解决这个问题,你让它去查,查了之后让它把数据链给你注出来(在哪本书、多少页,在什么网址上),如果可以的话,还让它对关键信息进行截图,不截图都可能出错。
我没养过"龙虾",但我用大模型去网上爬过资料。因为我的一篇文章要做引用,需要查相关资料。文章的主题是"AI来临之后,我们可怎么办呢?"背景是很多人都唱衰文科,但我觉得文科会越来越重要。
我引用了很多的观点,但出差在外,手头没有书,我就让AI去查,要它找到观点出处。
最初,它几乎找到了所有出处。但当我让它截图时,它就普遍地回答"找不到"了。有些它找到了,有些它找不到。它找到的,未必是对的,它没有找到的,未必不存在。所以,不要把AI当事实库。
第三个坑:把AI当背锅侠,出了事全怪模型
绝对不要把AI当成背锅侠。出了问题就怪模型,把责任一推了之,这是完全错误的。从我做AI哲学研究的核心观点来看:现阶段,AI难以自主承担责任,真正负责的只能是人。
所以使用AI时,必须明确指定责任人。AI确实能极大提升效率,但它只提供选项和依据,最终决策永远是人来做,责任永远是你的,可靠性不能只靠愿望。

这个世界本身并不完美,但我们必须通过人来负责、通过机制来约束,就相对稳定一点。
四、怎样对抗AI幻觉带来的
三大核心风险?
AI给出的是线索,不是答案;AI给出的是建议,不是决策。因为它不能自查:生成式模型的本质,就是在给定输入和训练分布下,生成高概率的文本,这不等于检索事实。
所以才会出现三类风险,核心都是幻觉:
第一,编造信息:比如编造数据、编造因果链,明明没有的事,它能说得有模有样;
第二,错配信息:时间点不对、地区或行业不对,把一个行业的经验套到另一个行业,很可能全错,毕竟不同行业的情况天差地别;
第三,偏差和漂移:训练数据本身有偏差,或者现实情况已经变了,但AI还是自信地输出旧结论,自然会出错。
更关键的是,AI一旦进入组织,风险就不只是"答案错了"那么简单。错的答案会被规模化传播,进入邮件、进入汇报、进入我们的决策。我们的公司、我们的组织,会变成AI错误的放大器和杠杆,最后酿成悲剧。
解决这个问题的路径,不是一味追求"更大的模型",而是要做到"来源可追溯":所有结论都要建立在事实基础上,数据血缘必须清晰:这个数据指标从哪来、谁能修改,都要明确;人机责任要分清,谁为AI的输出负责,必须确定。

你可以用AI,但你要为最终的结果负责任,就像你开车,车可以给你开,但走错路、出事故,责任永远是你的。
有个4步核查法,可以让我们避开AI胡说的坑。所有用于决策的AI结论,必须附上这四点:
信息来源是什么?生效时间是何时?统计口径是什么?核查人是谁?这些必须标注清楚,责任落实到人,而不是推给AI。
另外,关键指标要建立明确的口径和负责人,还要定期做抽样审计。在会议上也要明确:AI可以用来起草文件、汇总信息、提出假设,但绝对不能作为最终的事实依据,至少到目前为止是这样。
所以,我们面对AI时,一定要有核查思维,多问四个问题:
这个信息来自哪里?生效时间是什么时候,什么时候更新的,现在过时了吗?这个结论、这个数字的口径是什么,定义是什么?能不能复查?
比如AI显示"38%的人对某产品满意",那什么叫"满意"?口径是谁定的?这很重要,口径一松一紧,结果天差地别。以10分值为例,6分以上算满意,还是8分以上才算?
责任一定要明确:谁核查过、谁签字,谁就负责;把AI结论放进决策材料的人,一定要签字。你要用AI,就必须承担这个责任。

很多人有个误解,觉得没必要做这些核查工作,但其实不然。
我们可以做一个AI数据溯缘与核查表,明确这些内容:数据源头是谁?口径定义是什么,分子、分母分别是什么,包含什么、不包含什么?谁能修改这个数据?我们怎么验证它、怎么抽样审计?AI的引用规则是什么?在哪些异常情况下,必须暂停使用AI、进行人工复核?
这些规则一定要清晰,AI我们当然要用,但要用得规范、用得安全。
五、比AI幻觉更可怕的,
是人类的主动幻觉
面对AI,我们要转变思维:把自己当成AI的审计员,它是员工,我们负责审计,这样就对了。
而且大家会发现,从AI幻觉到人类幻觉,底层逻辑是一样的。AI的幻觉,其实就是我们人类自身幻觉的投射。
举个例子:你下班回家本来就累,你老公或老婆又告诉你孩子没考好,你还在家长会上被班主任阴阳怪气说了一顿。这时你一推门,看见孩子在桌子旁,身体一弹,还把抽屉推进去了。你立马就火了:"又在玩手机、打游戏?成绩那么差还玩!"
这个逻辑看起来特别合理,但你有没有想过,他可能根本没打游戏?他可能正在拿试卷、拿文具,看到你进来太紧张,条件反射地把抽屉推回去了,这完全有可能。
就像亲子教育里,我们常说"你就是懒,别找理由",这就和模型被奖励给出确定答案一样:我们把自己的主观动机,当成了客观事实,却缺少"我不确定,我需要证据"的意识。

这和AI幻觉一模一样:你把一个"最容易想到、最符合自己情绪"的答案,当成了真实答案。AI也是如此,它输出的不是正确答案,而是它最容易找到、最符合训练分布的答案。
我们人类也一样,孩子一次考差,就断定"他根本没用功";对方不回消息,就认定"他不在乎我"。这都是把单次观测当成了充足的训练数据,缺少中间变量的考量。
我们在不确定的场景里,被迫生成一个答案,而这个答案还被情绪左右,最后生成了一个"最像正确答案"的猜测。
就像对方不回消息,你根本不会想"他是不是在开车、在开会、在跟重要的人聊天",反而会钻牛角尖:"他不及时回复,就是不在乎我",情绪拉满,最后吵起来,这和AI瞎猜乱输出,简直一模一样。
在公司协作时,我们也经常能听到这些话:"这个需求已经很清楚了,你怎么还做错呢?""大会、小会说了那么多,怎么还错了呀?"
这也很像AI幻觉,把看见的清楚当成已经对齐了。那你是不是没有给具体指标?给了指标之后是不是没有提醒他有哪些验算点?验算的时间对齐了吗?都没有。
他(下属)确实做错了,但你把你的责任尽到了吗?准确表达了吗?在该需要你跟他做过程对齐的时候,你对齐了吗?
一些公司的领导经常说"这事别解释,结果说明一切,你就是不认真",这就是把单一的输出结果当成真实的标签。
类似的话还有"像个好答案,就是个好答案""现在提风险就是不想担责,提什么风险",这样说连证伪精神都没有了,肯定会出错。
这时组织激励在起作用,表达不确定会被惩罚,表达确定就会被奖励,于是系统就开始偏向于大胆生成,而不是校准与保守。
所以,永远不要对下属说这样的话:你们给我承诺,你提风险,你就是不担责任。
这样你没法负责,就相当于你在训练第一代、第二代大模型,每个答案猜一个,给不出你就是"懒",这样任何时候它都给你答案,但这个答案是不确定的。
而你,只是为了完成流程,它猜了答案之后,你赶紧签个字,往上一递交,上面给拍板,就这么干。决策流程都做了,但没有人负责,因为整个流程都是对的。
部门沟通时,有人会说:"按照经验,这次一定翻车,别冒险,按老办法干"。这也是个AI幻觉实验:用过去熟悉的模板替代对当前情景的验证。
不能这么讲,你要说"这次怎么翻车,把道理讲出来",找到一个证伪点就够了。不要说"按经验不起作用"这种话。
在算法时代,清洁的数据是唯一的硬通货。数据是干净的,这是最重要的东西。算力很容易打造,但数据很难。

现在大模型训练最缺的是什么?高质量数据的匮乏。
大家用DeepSeek都有一个感觉,刚刚出来的时候非常牛,用上半年之后体感水平下降了,为什么?有人说,这是因为,大量的网友跟它聊天,把它水平搞下来了。这个未必对,但其中有正确的直觉。
在智人社群,干净的事实是最稳的出发点。我们是智人,我们是动物里面最厉害的那群动物,在智人的群落里面,干净的事实是最稳定的,事实要是干净的,没有被错误地清洗过的。
把AI当人,把人当AI,就会极大地降低认知负担。
结语
很多人唱衰文科,觉得AI时代数理能力才是核心,但真相并不那么简单:AI能替代奥林匹克金奖级别的解题能力,却替代不了底层的逻辑判断、因果洞察、证伪思维和责任担当。

对抗AI幻觉,本质是修炼自己的认知能力。我们要做的,不是追求一个永远正确的AI,而是建立一套"承认不确定性、敬畏客观事实、可追溯、可纠错"的决策系统。
这个世界永远是不确定的,真正靠谱的决策,从来都不是找到一个全对的答案,而是哪怕身处不确定中,也能守住事实的底线、承担决策的责任。
我们要永远记住:AI给出的是线索,不是答案;是建议,不是决策。没有可追溯的事实,就没有靠谱的决策;没有中间变量与因果链条,全是自欺欺人的赌局。
AI是提升效率的工具,而我们永远是决策的主人。
今天我们深嵌于一个政治、经济、科技、哲学都在经历持续变革和深刻重塑的复杂社会与商业系统之中。
真正的挑战是:我们的认知框架、组织形态和行动工具,还停留在"前AI时代"。在前所未有的复杂系统性变革中,我们需要的是理解世界底层的"元能力"。
面向AI新时代,笔记侠PPE(哲学、政治学与经济学)课程,正是为理解这样的复杂系统而生:理解国际贸易与经济政策、理解国际政治与治理模式、理解全球技术与科技范式、理解AI哲学和科技经济、理解文明进程与哲学意义。这是第五代企业家应有的一套"操作系统"。
笔记侠PPE课程26级招生现已启动。驾驭技术、洞察世界、扎根中国、修炼心力,在应对时代重重挑战中寻找决策底牌。
穿越变革的旧世界,找到时代的新大陆,从升级你的PPE决策底层开始。
欢迎你扫描下方海报二维码,添加课程主理人咨询详情。

好文阅读推荐:
"子弹笔记"是笔记侠的矩阵公众号,聚焦职场效率追求、人际关系与高潜成长者,帮你3分钟吃透核心观点和方法论。欢迎关注~
分享、点赞、在看,3连3连!


登录后才可以发布评论哦
打开小程序可以发布评论哦