自从生成式 AI 崛起以来,经常有人传播一个观点:AI 大模型的 " 胡说八道 "(学名是 " 大模型幻觉 ")会导致整个互联网充斥垃圾信息,最终毁掉人类的知识体系。当初 ChatGPT 爆红之后,以及最近 DeepSeek 爆红之后,都有大量的专业媒体和自媒体,像鹦鹉学舌一样,不断重复着上述说法。就在昨天,我的朋友圈里又有好几个人转发了类似的文章。鉴于这类文章内容大同小异,看个标题就知道内文在写什么了,所以我没有打开阅读,今后应该也不会阅读。
作为一个 GPT/DeepSeek 的双料重度用户,我当然知道 " 大模型幻觉 " 的威力。我是历史学爱好者,经常跟 AI 讨论历史问题,要求 AI 帮我收集史料。大约半年前,我问了 GPT-4o 一个问题:" 清朝初年的佟佳氏家族,在康熙年间一度有‘佟半朝’之称,但是自从雍正年间隆科多被查办、乾隆年间庆复被赐死之后,似乎就远离历史舞台了。这个家族在清朝中后期还出过名人吗?"
十几秒后,GPT-4o 告诉我:" 隆科多、庆复先后获罪之后,佟佳氏确实大不如前,但是瘦死的骆驼比马大,还是出了一些中高层官员,例如:乾隆时期的副都统佟世荣、晚清的内务府官员佟永德、晚清的八旗领队大臣佟志和等。在此附上他们的简历(下略)。"
我马上发觉不对劲:佟佳氏是一个 " 满洲化 " 程度很深的汉军旗家族,起名习惯也逐渐采纳了满洲的 " 称名不举姓 ",像隆科多、庆复都是很典型的满洲人名,怎么到了晚清反而全是汉化姓名?而且,诸如佟永德、佟志和之流,不但《清史稿》查无此人,在所有主流搜索引擎都搜不到。于是我再次询问:" 你说的这几个人,我没有找到任何相关史料,你的信息来源是什么?"
GPT-4o 宣称自己的信息来源是《清史稿》和《八旗通志》。我明确表示,在这两部书中找不到上面几个名字,于是它终于认错了:" 不好意思,这些人在历史上确实不存在。佟佳氏在清朝中期以后确实没有出现值得一提的人物。" 无论如何,我还是基本达到了目的,尽管我差一点点就上当了。
在想象力之深厚、编段子之狂野方面,DeepSeek 似乎比 GPT 有过之而无不及,这可能是由于其对齐机制 ( Alignment ) 与 GPT 不同。所以有些人很喜欢让 DeepSeek 写小说、写同人文;但由于个人审美口味不同,我对它编的故事不太感冒,还是更喜欢看 GPT 编故事。如果我们隐去这些故事的虚构属性,把它当做真实资料贴到网上,确实能够骗住一大批人,就连相关领域的专业人士也难以免俗。
由此回到了本文开头的那个问题:大模型如此擅长 " 一本正经地胡说八道 ",它会毁掉人类的知识体系吗?
我的答案很简单:人类的知识体系还轮不到大模型来摧毁,因为人类自己胡说八道的能力远胜于大模型,其影响也远远更恶劣。大模型只是胡说八道的效率比较高,人类则早已把胡说八道发展成了一种 " 艺术 ",不仅是一本正经地胡说八道,而且是心安理得的胡说八道。作为一个接受过高等教育,而且在投资行业从业多年的人,我的记忆中留下了无数 " 人类胡说八道 " 的高光时刻;我自己当然也不能免俗。下面说说让我印象最深刻的几个案例吧。
差不多二十年前, 我在大学里学一门《财务会计》课,那是金融专业的必修课。课程的结尾,每个学生都要挑选一家上市公司做财务分析,然后做 PPT 演讲。绝大部分同学选的都是 A 股或港股公司,我记得有人选了青岛啤酒,有人选了中国石化,我自己选的是达尔曼(一家因为重大财务造假而退市的公司)。但是有一位同学艺高人胆大,选了 AMD。这让包括老师在内的所有人都比较震惊:
AMD 是一家美股公司,财报都是英文,而且美股财务会计准则 ( US GAAP ) 与中国不太一样。对于本科生来说,难度显然更大。
AMD 是做芯片的,芯片是一个十分复杂、科技含量很高的业务。何况当初 AMD 不止做芯片设计,还做制造,财务分析的难度更是呈几何级数提升。、
那一年恰好是 AMD 业务剧烈变化的时期:推出了自家第一个双核处理器,剥离了闪存业务;次年还收购了 ATI。对于这种剧烈变化中的公司,哪怕资深分析师也很难分析透彻,何况是学生?
这并没有妨碍我的老同学一本正经地胡说八道。我迄今还记得他的 PPT 标题叫做 "The Rebirth of AMD"(AMD 的重生)。我之所以印象如此深刻,是因为他在 PPT 的前几页就犯了几个重大技术错误,把当时 AMD 的几款主力 CPU 搞混了,销量估计似乎也错了。我不是电脑 DIY 高手,但我前一年恰好装过机器,对这些基本常识还是懂的。所以接下来十几分钟我就没怎么听了,直到该同学激情四射地发出了 " 在新任 CEO 的率领下,AMD 必将浴火重生 " 的结论。我强忍住了举手提问的冲动,因为我想提的问题是:" 您是怎么做到,在连 x86-64 架构是什么都不懂的情况下研究 AMD 的?"
神奇的是,在事后评分环节,该同学得到了不错的分数(尽管不是最高分)。老师的理由是:" 他的演讲台风很好,PPT 全部使用了英文,而且穿了西装。" 当时我并不理解,用英文做 PPT、穿西装做演讲跟研究 AMD 有啥关系;现在我还是不理解。但是,跟我此后十几年工作中印证的更多惊悚案例相比,老同学穿着西装的胡说八道就算不了什么了。
我说:" 今天无锡的会议上,不是有专家说,国家要投几万亿建设车联网吗?"
对方说:"WTF? 我就在无锡,今天的会我从头到尾听了,哪儿有投几万亿建设车联网的说法?"
我说:" 那我就不知道是谁编的段子了。"
事实上,编段子的不止一个人;准确的说全市场都在编段子。一个月之后,好几家知名券商几乎同时发布深度研究报告,宣布明年将进入 "X 联网时代 ":物联网、车联网,我们身边的一切皆可联网。这可实在太魔幻了,因为当时连移动互联网都尚未普及,3G 建设都才进展到一半,就连 WiFi 都尚在普及之中。我仔细阅读了上述所有报告,发现其中没有一篇提到 "X 联网 " 的技术基建问题如何解决;但这并不妨碍大家异口同声地描述几百亿、几千亿乃至几万亿的市场规模。
2011 年初,上文提到的那位买方的朋友,在自家会议室里跟我讨论了一个小时:" 车联网到底会使用哪种通信技术?" 我没学过通信,但他是通信专业毕业的,还在运营商工作过。他在小白板上写下了一个又一个技术名词,又摇摇头,指出它们为什么不能用于车联网,然后把它们划掉。最后他自言自语道:" 看样子,懂的太多就赚不到钱。还是一知半解好啊。"
我补充道:" 不如说,一知半解加上胡说八道更好。一知半解是为了胡说八道而服务的,胡说八道才能赚钱嘛。"
斗转星移,现在大家都在谴责大模型的胡说八道,而罔顾自己惯于胡说八道的现实。我必须说句公道话:当大模型胡说八道的时候,只要你坚定质疑它,它就会认错;可是我没见过任何人类就自己的胡说八道认错。从来都没有,一个都没有!
从技术角度看,大模型幻觉是无解的。因为大模型并不真正 " 理解 " 问题,它是一个 token 一个 token 地组织回答的,统计学规律决定了它有时候必然会给出不靠谱的回答。何况,现在大模型的训练语料早已从人类社会的自然语料,进化到了大模型自身生成的语料,这就进一步加剧了胡说八道的风险。但是大模型不会基于任何 " 目的 " 而胡说八道——目前尚未有任何证据显示大模型产生了自我意识,也就谈不上有计划、有目的地生成错误信息。
人类的胡说八道,则是基于各种复杂的目的:赚钱,博取名誉,或者单纯的自我满足。上文提到过,我是一个历史学爱好者,所以我经常在各大社交媒体观看历史问题的讨论。有些 " 爱好者 " 编造史料的功底令人叹为观止,确实把胡说八道变成了一种 " 艺术 "。令我记忆犹新的,是一位知乎答主宣称 " 三国时期的魏国是一个禽兽之国 ",因为史料显示 " 魏,犬名也 ",拿狗的名字给自己命名的国家能好到哪里去?
很久很久以后,有人去查找原始史料,发现原文是 " 魏,大名也 "。这种不动声色的胡说八道,我相信大模型永远学不会。这位知乎答主胡说八道的目的,仅仅是因为他崇拜刘备、讨厌曹操而已。这是一种朴素的目的,甚至不失可爱,但并不妨碍他对中文历史知识库造成了不可逆转的、近乎永久性的污染,因为那篇 " 魏,犬名也 " 的雄文已经被无数个自媒体转载过了。
你可以想象,为了那些更 " 现实 ",以及更 " 崇高 " 的目的,人类是怎么面不改色心不跳地胡说八道的。我甚至可以大胆推断:大模型的许多 " 胡说八道 " 行为,来自人类用户有意识的诱导。因为人类自己先有胡说八道的意愿,才拿大模型当枪使,更高效地生成胡说八道性质的内容;最后这些内容的传播还得依靠人类的鼠标、键盘、触摸屏,因为直到现在,绝大部分 AI Agent 尚不具备自我传播内容的能力。
在轻松愉快地生成并传播一大堆胡说八道内容,满足自己不可告人的心理之后,这些人类用户又会伸伸手指,发布另一段内容:" 大模型的胡说八道如何污染乃至摧毁了人类的知识库?今后还有没有客观真实可言?"
就连这样的内容,可能也是由 GPT 或 DeepSeek 生成的。大型滑稽。
本文没有得到 OpenAI, DeepSeek 或其竞争对手的任何资助或背书。
本文没有得到 AMD 或其竞争对手的任何资助或背书。
登录后才可以发布评论哦
打开小程序可以发布评论哦