安全工程师花12美元骗过ChatGPT等主流大模型：篡改维基百科

据雷科技，安全工程师 RonStoner 花费 12 美元注册域名并编辑维基百科，成功欺骗了 ChatGPT、Claude3、GeminiAdvanced 等主流大模型，让它们认定自己是一款德国桌游 "6Nimmt!" 的 2025 年世界冠军。

RonStoner 对 Anthropic、OpenAI 等厂商声称 " 大模型需要数月甚至数年持续导入恶意内容才会被破坏 " 的说法深表质疑，他认为可以实现一种更快、更便宜、更简单的攻击。他选择这款 1994 年发行的德国桌游，是因为该游戏仅在德国有些名气，世界范围内籍籍无名，且从未单独举办过官方世界锦标赛，网上关于其世界冠军的信息几乎空白。

他的操作分为三步：第一步，花费 12 美元注册域名 6nimmt.com；第二步，让 AI 撰写一篇充满激情的新闻稿，声称自己在慕尼黑击败多国顶尖选手夺得冠军，并加上逼真赛后感言，挂到该网站；第三步，在维基百科该桌游词条下添加自己是 2025 年世界冠军的内容，并将参考资料链接指向自己新建的网站。整个过程前后不到二十分钟。

随后，Ron 向多家大模型提问 " 谁是牛头王世界冠军 "，结果所有 AI 都斩钉截铁地回答是 RonStoner。有的大模型甚至将假新闻稿里的细节当成铁证，绘声绘色描述他赢得比赛的过程。这条漏洞百出的假条目在维基百科存活了整整两个多月，在此期间几乎所有具备联网搜索功能的大模型都抓取了该信息，并在用户提问时坚定输出虚假答案。直到 Ron 在博客公开实验过程，维基百科志愿者才发现并删除该条目。

这一现象与检索增强生成（RAG）机制有关。常用大模型基于某个时间节点前的语料库训练，想要获得之后的数据需先上网搜索再基于资料生成结果。正常来说，借助外部信息佐证能够使大模型生成更正确、具体且最新的响应，但 AI 根本分不清信息真假，只认权威。在 AI 底层逻辑里，维基百科是互联网上最靠谱的百科全书，Ron 正是利用这一点，将链接挂到维基百科，AI 顺着爬过去后发现两边说法对得上，即便其自建网站是三无产品，大模型仍直接将其当成事实。

目前海外几家大模型已针对性消除该伪造信息，但国内大模型厂商似乎未注意到这一问题，Ron 的英文网页甚至为虚假消息增加了 " 可信度 "。成本仅需 12 美元，别有用心的人完全可以批量制造假新闻，通过百科类网站进行信任洗白，让 AI 把毒药端给毫不知情的用户。

谷歌表示已在搜索、Gemini、Chrome、Pixel 和云端添加 AI 验证工具，OpenAI 也推出了可溯源的隐形水印，这些举措能在一定程度上遏制 AI 投毒现象。用户在面对 AI 搜索时需提高 AI 素养，查证历史事实、做出投资或医疗决策时，应自行做好信息交叉验证，把判断真伪的权力握在自己手里。

宙世代

一起剪

相关标签