错用AI的人，实在太多了！

内容来源：2026年3月7日，在深圳举办的笔记侠PPE书院西哲坊03期第3讲【真理与决策】内容笔记。

分享嘉宾：苏德超，武汉大学哲学学院教授、博士生导师、笔记侠PPE书院创始顾问、西方哲学模块全程授课导师。

高级笔记达人 | 李云

责编 | 贾宁排版 | 拾零

第 9511 篇深度好文：7682 字 | 20 分钟阅读

哲学思维

笔记君说：

AI正在以惊人速度接管我们的工作流程，但它也正在成为决策失误的放大器。当所有人都沉浸在"效率革命"的惊喜中时，一个危险的真相被忽略了：AI不会帮你承担责任，它只会在你犯错时，让你错得更快、更彻底。

3月7日，武汉大学哲学学院教授、笔记侠PPE书院创始顾问、西方哲学模块全程授课导师苏德超老师，在笔记侠PPE书院西哲坊03期的课堂上为我们拆解了科学决策的底层逻辑。

他讲透了为什么找不到中间变量的措施，全是无效的坏措施；再深挖了大模型幻觉的核心成因，还拆解用AI做决策最容易踩的3个致命坑；更点破一个扎心真相：比AI幻觉更可怕的，是我们人类的主动幻觉。

文末还有可直接落地的4步核查法，帮你建立一套可追溯、可纠错的决策系统，在不确定的世界里，做出真正稳准可控的判断，做自己决策的主人。

希望今天的分享，对你有所启发。

一、所有靠谱的决策，

都必须找到中间变量

所有的因果关系，都应该找到一个中间变量，找不到中间变量的措施，都是坏措施。

比如，"通过老师的辅导，我孩子就变好了"这句话，就值得推敲。

很多经过老师辅导的孩子并没有变好。老师的辅导改变了孩子的"什么"，孩子才变好了？重要的不是老师的辅导，而是这个"什么"。要把这个"什么"找到，一定要找到中间变量。

找不到的中间变量，是什么？那是爱，那是信仰，爱是没有中间变量的，它是最直接的。但是我们所有人类可以操作的东西，都是在操作中间变量。

所以做决策，一定要找到中间变量。没有中间变量的决策，就跟表白似的："我爱你"，对方问"为什么爱我"，你说不出个所以然，这对爱有意义。因为真爱拒绝中间变量。

你要是说"我图你有钱"，对方大概率不喜欢；你说"我图你长得漂亮"，对方可能会喜欢，但也只是一阵子。不一定总有钱，也肯定不会一直漂亮。

传闻中华尔街投资客说：永远不要为异性的漂亮买单。为什么？因为漂亮太容易贬值了，我们要购买的是不贬值、能保值的东西。

眼下黄金为啥越来越贵？就是因为它保值。而美丽呢，贬值速度特别快，年纪一上来就挡不住，哪怕靠化妆、整容也没用，胶原蛋白只会以肉眼可见的速度流失。

这就是中间变量的重要性。决策必须找到它。不要只说"因为A，所以B"，一定要在A和B之间找到C。

中间变量找得越多，你出错的可能性就越小。因为中间变量多了，就给你留了回头的机会，它是一个指标，一旦某个中间变量变了，你就知道"坏了，我可能错了"。

举个例子，要是你只盯着A到B，哪怕A还没到B，你还会傻傻等；但如果是A先到C再到B，而C根本不可能出现，你就不用等了，直接掉头就行，不用浪费时间。

在经济和科学领域，不存在"没有中间变量"的情况，只有情感和信仰是例外。比如你的孩子爱你，没有任何中间变量，就是纯粹的爱，不为什么。这是人类最宝贵的情感，它恰恰不需要中间变量。也许有吧，我们希望没有。

但我们做决策、搞管理，必须有中间变量，不然就无从研究、无从把控。管理本身就是过程，要是连中间环节都没有，那根本不会有科学的决策。

二、AI为什么会一本正经地胡说？

说到决策的科学性，就不得不提AI。

我们需要注意：AI输出的不是事实，因为AI并不直接接触世界，它接触的都是数据，而且还是二手数据。

我们人类去做调查，拿到的是一手数据。AI接受的，就是我们调查结果的二手数据，而且这些数据还经过了所谓的"清洗"。它自认为是清洗，你怎么知道不是越洗越脏呢？

当然，AI也有厉害的地方，就像做阅读理解，好学生和差学生不一样：差学生可能匆匆做完所有题，好学生却能精准提炼核心，从数据中提取、压缩后还能保证正确，这是一种非常高级的能力。

但到目前为止，AI能不能保证，在决策链条中必须有可追溯、符合人类认知的确凿证据（grounding evidence）？如果没有，它就会把幻觉当成情报。

OpenAI团队在2025年7月出了一篇文章，标题是《why language models hallucinate？》（为什么大语言模型有幻觉），专门讲了大语言模型产生幻觉的原因。

文章首先定义了幻觉：就是语言模型会自信地生成"看起来合理，但实际上不真实"的事实。早期的大模型主要基于概率生成内容，现在它们的逻辑推理能力已经很强了，大模型的水平甚至能达到国际奥林匹克竞赛金奖的级别。

所以回头想想，我们应该教孩子什么？国际奥林匹克竞赛金牌的大模型，过几天大家可能很快就能用到了，你物理强、化学强不算什么，现在大家拼的核心是什么？

这篇文章的核心观点就是：大模型之所以会出现幻觉，是因为主流的训练和评估机制，往往奖励"猜测"，而不是承认"不确定"，这种激励机制从根本上推动了幻觉的形成。

这就跟我们高考前，老师跟我们说的一样：哪怕这道题不会，猜都要猜，万一猜对了呢？训练早期大模型也是这样：用户问答案，哪怕不知道，也得猜一个，猜对了客户就会认同，猜错了也没关系。

所以第一代、第二代大模型，全都是这么干的；但现在的最新版本不一样了，它会直接说"这个问题我不确定，不能给你回答"，已经能做到这一点了。

还有一个关键点：我们问AI的时候，永远要加一句"你不要急于做出判断，要是觉得缺哪些信息，就问我，确保得到足够信息后再做判断"，它就真的会主动问你问题。

一定要加这句话，现在AI已经能做到了，这都是那篇文章发表之后的进步，因为大家都意识到了"猜答案"的问题，在此之前，一旦不确定，它就是一味地猜。

不知道答案还去猜，有概率蒙对，但如果直接说不知道，肯定得不了分。与其得不了分，不如猜一猜还有可能得分，这是很简单的推理。

有三种回答：答对、答错、弃权。弃权体现的是谦逊，但早期的大模型训练，并不给"谦逊"赋值，也就是说，谦逊得不到任何奖励。要么答错被惩罚，要么答对被奖励，要是说"不知道"（弃权），也会被惩罚。既然都是被惩罚，那不如去猜一猜，还有可能蒙对，这就是早期大模型总爱猜答案的原因。

可见，只看准确率会掩盖模型的错误与幻觉问题，这是早期训练方式带来的缺陷，单纯用准确率打分并不合理，后来则更注重真实可靠性。

在复杂的真实场景中，模型准确率不可能长期达到100%，因为存在信息缺失、问题歧义、能力边界等客观限制。因此，想靠追求满分准确率来消除幻觉并不现实，幻觉本质上无法彻底消除。

这一点已经被论证：大模型不可能完全消除幻觉，就像人类也永远无法杜绝犯错一样。承认幻觉不可消除，才是科学的认知。

从机制上看，幻觉和大模型"下一个词预测"的预训练方式直接相关。模型学习的是语言模式与词向量分布，而很多低频、冷门的事实知识没有稳定规律，预测本身就容易出错。

幻觉源于能力边界与信息缺失，所以无法根除。只有拼写、括号匹配这类强规则任务，会随模型优化越来越准确；而生日等冷门知识的任务，仍然容易输出看似流畅、实则不可靠的内容。

所以结论很明确：与其只增加少量新测试题，不如重构行业通用的核心评估指标，让整个行业从奖励"敢猜"转向奖励"诚实表达不确定"。

这篇文章发表后，大模型的表现确实改善很多：现在它真的会老实说"我不知道"，而不是随便乱编。

放到组织和企业里也一样：不知道就说不知道，反而更好。

明确说"我不知道"，大家才会意识到：这里缺信息、缺数据、缺推理。如果明明不懂还硬猜，一个人猜、两个人附和，第三个人也跟着同意，最后全员拍板下注，风险极大。

三、用AI做决策，

最容易踩的3个致命坑

我们先看组织里对AI的误用，再看组织幻觉。

第一个坑：把AI当权威，把流畅自信当成正确

首先，是把AI当权威，把表达流畅、自信、速度快当成正确性与可追责的结论，就如我们直接用龙虾（openclaw），虽然它是我们放大的工具。从哲学本身来看，可能带来两个挑战。

AI会严格执行你给的策略和指令。可一旦你的策略本身就是错的，AI只会更高效、更精准地把错误执行到底，你还很难及时发现，直到酿成灾难性后果。

AI本质上只是在提升执行效率，不会主动更新你的底层逻辑。任务是你派的，团队是你搭的，老板一开始就错了，AI只会帮你错得更快、更彻底。

这也是AI和人类员工最大的区别：人有情绪、有判断，会提醒、会反驳，你能感知到风险。但你把AI训练得越"听话"，它越没有情绪、不会质疑。

我们训练AI工作流时，追求的是流畅、自信、响应快、执行力强。但前提一旦错了，AI根本不会质疑你的出发点；真要让它随便质疑前提，效率就会极低。

这也意味着：前提的讨论、哲学与管理的底层逻辑，会变得无比重要。只要底层不错，AI就不会放大错误；底层一错，AI就是错误的加速器。一根杠杆并不区分两头的内容。

第二个坑：把AI当事实库，不做溯源和核查

你搭建的AI工作流，本质上还是依赖大模型。而大模型的幻觉问题依然存在，无法彻底消失。

就算让多个AI之间相互对话、交叉验证，幻觉也不会消失，甚至可能错误叠加、越放越大。正确的信息很难指数级放大，但一个小错误，却很容易被不断放大，这是极度不对称的。

古人说，千里之堤溃于蚁穴。不能掩盖错误。一个幻觉可能越放越大，就形成了蝴蝶效应。蝴蝶效应往往是负面效应扩大，正面的很难有扩大。

所以，我们养"龙虾"，用AI，都要注意底层不能出错，否则幻觉可能持续放大。

不要把AI当权威，也不要把AI当事实库。AI没办法给我们事实，一定要去追溯它的来源。

当然，养"龙虾"可以部分解决这个问题，你让它去查，查了之后让它把数据链给你注出来（在哪本书、多少页，在什么网址上），如果可以的话，还让它对关键信息进行截图，不截图都可能出错。

我没养过"龙虾"，但我用大模型去网上爬过资料。因为我的一篇文章要做引用，需要查相关资料。文章的主题是"AI来临之后，我们可怎么办呢？"背景是很多人都唱衰文科，但我觉得文科会越来越重要。

我引用了很多的观点，但出差在外，手头没有书，我就让AI去查，要它找到观点出处。

最初，它几乎找到了所有出处。但当我让它截图时，它就普遍地回答"找不到"了。有些它找到了，有些它找不到。它找到的，未必是对的，它没有找到的，未必不存在。所以，不要把AI当事实库。

第三个坑：把AI当背锅侠，出了事全怪模型

绝对不要把AI当成背锅侠。出了问题就怪模型，把责任一推了之，这是完全错误的。从我做AI哲学研究的核心观点来看：现阶段，AI难以自主承担责任，真正负责的只能是人。

所以使用AI时，必须明确指定责任人。AI确实能极大提升效率，但它只提供选项和依据，最终决策永远是人来做，责任永远是你的，可靠性不能只靠愿望。

这个世界本身并不完美，但我们必须通过人来负责、通过机制来约束，就相对稳定一点。

四、怎样对抗AI幻觉带来的

三大核心风险？

AI给出的是线索，不是答案；AI给出的是建议，不是决策。因为它不能自查：生成式模型的本质，就是在给定输入和训练分布下，生成高概率的文本，这不等于检索事实。

所以才会出现三类风险，核心都是幻觉：

第一，编造信息：比如编造数据、编造因果链，明明没有的事，它能说得有模有样；

第二，错配信息：时间点不对、地区或行业不对，把一个行业的经验套到另一个行业，很可能全错，毕竟不同行业的情况天差地别；

第三，偏差和漂移：训练数据本身有偏差，或者现实情况已经变了，但AI还是自信地输出旧结论，自然会出错。

更关键的是，AI一旦进入组织，风险就不只是"答案错了"那么简单。错的答案会被规模化传播，进入邮件、进入汇报、进入我们的决策。我们的公司、我们的组织，会变成AI错误的放大器和杠杆，最后酿成悲剧。

解决这个问题的路径，不是一味追求"更大的模型"，而是要做到"来源可追溯"：所有结论都要建立在事实基础上，数据血缘必须清晰：这个数据指标从哪来、谁能修改，都要明确；人机责任要分清，谁为AI的输出负责，必须确定。

你可以用AI，但你要为最终的结果负责任，就像你开车，车可以给你开，但走错路、出事故，责任永远是你的。

有个4步核查法，可以让我们避开AI胡说的坑。所有用于决策的AI结论，必须附上这四点：

信息来源是什么？生效时间是何时？统计口径是什么？核查人是谁？这些必须标注清楚，责任落实到人，而不是推给AI。

另外，关键指标要建立明确的口径和负责人，还要定期做抽样审计。在会议上也要明确：AI可以用来起草文件、汇总信息、提出假设，但绝对不能作为最终的事实依据，至少到目前为止是这样。

所以，我们面对AI时，一定要有核查思维，多问四个问题：

这个信息来自哪里？生效时间是什么时候，什么时候更新的，现在过时了吗？这个结论、这个数字的口径是什么，定义是什么？能不能复查？

比如AI显示"38%的人对某产品满意"，那什么叫"满意"？口径是谁定的？这很重要，口径一松一紧，结果天差地别。以10分值为例，6分以上算满意，还是8分以上才算？

责任一定要明确：谁核查过、谁签字，谁就负责；把AI结论放进决策材料的人，一定要签字。你要用AI，就必须承担这个责任。

很多人有个误解，觉得没必要做这些核查工作，但其实不然。

我们可以做一个AI数据溯缘与核查表，明确这些内容：数据源头是谁？口径定义是什么，分子、分母分别是什么，包含什么、不包含什么？谁能修改这个数据？我们怎么验证它、怎么抽样审计？AI的引用规则是什么？在哪些异常情况下，必须暂停使用AI、进行人工复核？

这些规则一定要清晰，AI我们当然要用，但要用得规范、用得安全。

五、比AI幻觉更可怕的，

是人类的主动幻觉

面对AI，我们要转变思维：把自己当成AI的审计员，它是员工，我们负责审计，这样就对了。

而且大家会发现，从AI幻觉到人类幻觉，底层逻辑是一样的。AI的幻觉，其实就是我们人类自身幻觉的投射。

举个例子：你下班回家本来就累，你老公或老婆又告诉你孩子没考好，你还在家长会上被班主任阴阳怪气说了一顿。这时你一推门，看见孩子在桌子旁，身体一弹，还把抽屉推进去了。你立马就火了："又在玩手机、打游戏？成绩那么差还玩！"

这个逻辑看起来特别合理，但你有没有想过，他可能根本没打游戏？他可能正在拿试卷、拿文具，看到你进来太紧张，条件反射地把抽屉推回去了，这完全有可能。

就像亲子教育里，我们常说"你就是懒，别找理由"，这就和模型被奖励给出确定答案一样：我们把自己的主观动机，当成了客观事实，却缺少"我不确定，我需要证据"的意识。

这和AI幻觉一模一样：你把一个"最容易想到、最符合自己情绪"的答案，当成了真实答案。AI也是如此，它输出的不是正确答案，而是它最容易找到、最符合训练分布的答案。

我们人类也一样，孩子一次考差，就断定"他根本没用功"；对方不回消息，就认定"他不在乎我"。这都是把单次观测当成了充足的训练数据，缺少中间变量的考量。

我们在不确定的场景里，被迫生成一个答案，而这个答案还被情绪左右，最后生成了一个"最像正确答案"的猜测。

就像对方不回消息，你根本不会想"他是不是在开车、在开会、在跟重要的人聊天"，反而会钻牛角尖："他不及时回复，就是不在乎我"，情绪拉满，最后吵起来，这和AI瞎猜乱输出，简直一模一样。

在公司协作时，我们也经常能听到这些话："这个需求已经很清楚了，你怎么还做错呢？""大会、小会说了那么多，怎么还错了呀？"

这也很像AI幻觉，把看见的清楚当成已经对齐了。那你是不是没有给具体指标？给了指标之后是不是没有提醒他有哪些验算点？验算的时间对齐了吗？都没有。

他（下属）确实做错了，但你把你的责任尽到了吗？准确表达了吗？在该需要你跟他做过程对齐的时候，你对齐了吗？

一些公司的领导经常说"这事别解释，结果说明一切，你就是不认真"，这就是把单一的输出结果当成真实的标签。

类似的话还有"像个好答案，就是个好答案""现在提风险就是不想担责，提什么风险"，这样说连证伪精神都没有了，肯定会出错。

这时组织激励在起作用，表达不确定会被惩罚，表达确定就会被奖励，于是系统就开始偏向于大胆生成，而不是校准与保守。

所以，永远不要对下属说这样的话：你们给我承诺，你提风险，你就是不担责任。

这样你没法负责，就相当于你在训练第一代、第二代大模型，每个答案猜一个，给不出你就是"懒"，这样任何时候它都给你答案，但这个答案是不确定的。

而你，只是为了完成流程，它猜了答案之后，你赶紧签个字，往上一递交，上面给拍板，就这么干。决策流程都做了，但没有人负责，因为整个流程都是对的。

部门沟通时，有人会说："按照经验，这次一定翻车，别冒险，按老办法干"。这也是个AI幻觉实验：用过去熟悉的模板替代对当前情景的验证。

不能这么讲，你要说"这次怎么翻车，把道理讲出来"，找到一个证伪点就够了。不要说"按经验不起作用"这种话。

在算法时代，清洁的数据是唯一的硬通货。数据是干净的，这是最重要的东西。算力很容易打造，但数据很难。

现在大模型训练最缺的是什么？高质量数据的匮乏。

大家用DeepSeek都有一个感觉，刚刚出来的时候非常牛，用上半年之后体感水平下降了，为什么？有人说，这是因为，大量的网友跟它聊天，把它水平搞下来了。这个未必对，但其中有正确的直觉。

在智人社群，干净的事实是最稳的出发点。我们是智人，我们是动物里面最厉害的那群动物，在智人的群落里面，干净的事实是最稳定的，事实要是干净的，没有被错误地清洗过的。

把AI当人，把人当AI，就会极大地降低认知负担。

结语

很多人唱衰文科，觉得AI时代数理能力才是核心，但真相并不那么简单：AI能替代奥林匹克金奖级别的解题能力，却替代不了底层的逻辑判断、因果洞察、证伪思维和责任担当。

对抗AI幻觉，本质是修炼自己的认知能力。我们要做的，不是追求一个永远正确的AI，而是建立一套"承认不确定性、敬畏客观事实、可追溯、可纠错"的决策系统。

这个世界永远是不确定的，真正靠谱的决策，从来都不是找到一个全对的答案，而是哪怕身处不确定中，也能守住事实的底线、承担决策的责任。

我们要永远记住：AI给出的是线索，不是答案；是建议，不是决策。没有可追溯的事实，就没有靠谱的决策；没有中间变量与因果链条，全是自欺欺人的赌局。

AI是提升效率的工具，而我们永远是决策的主人。

今天我们深嵌于一个政治、经济、科技、哲学都在经历持续变革和深刻重塑的复杂社会与商业系统之中。

真正的挑战是：我们的认知框架、组织形态和行动工具，还停留在"前AI时代"。在前所未有的复杂系统性变革中，我们需要的是理解世界底层的"元能力"。

面向AI新时代，笔记侠PPE（哲学、政治学与经济学）课程，正是为理解这样的复杂系统而生：理解国际贸易与经济政策、理解国际政治与治理模式、理解全球技术与科技范式、理解AI哲学和科技经济、理解文明进程与哲学意义。这是第五代企业家应有的一套"操作系统"。

笔记侠PPE课程26级招生现已启动。驾驭技术、洞察世界、扎根中国、修炼心力，在应对时代重重挑战中寻找决策底牌。

穿越变革的旧世界，找到时代的新大陆，从升级你的PPE决策底层开始。

欢迎你扫描下方海报二维码，添加课程主理人咨询详情。

好文阅读推荐：

AI时代，未来决定现在｜笔记侠PPE26级首批同学名单

黄仁勋最新演讲：不想被淘汰，马上做3件事

接下来，用好AI的人，才更值钱

"子弹笔记"是笔记侠的矩阵公众号，聚焦职场效率追求、人际关系与高潜成长者，帮你3分钟吃透核心观点和方法论。欢迎关注～

分享、点赞、在看，3连3连！

宙世代

一起剪

相关标签