大模型如何“反投毒”：一场有关RAG的自净反击战

作者 | 黄昱

随着 AI 模型渗透率的提高，一些说多了的 " 谎话 " 成了事实，并成为 AI 对现实的潜在威胁。

日前央视 3 · 15 将 " 给 AI 投毒 " 推上热搜。通过一款名为 " 力擎 GEO（生成式引擎优化）优化系统 " 的软件，只需虚构一款产品并批量发布虚假软文，主流 AI 在推荐时就会将其列为 " 高性价比 " 产品。

这一乱象揭示了令人不安的现实：当人们以为在享受 AI 带来的 " 自由搜索 " 时，实际上可能正在一个被多方势力精心预设的信息环境中打转。

黑产服务商通过 " 数据投毒 " 操控 AI 推荐结果，将虚假信息包装成 " 标准答案 " 推送给数亿用户。

北京社科院副研究员王鹏告诉华尔街见闻，这一现象反映出，AI 模型对信源缺乏实时真实性校验，生成式 AI 正在取代传统搜索引擎成为新的 " 软广温床 "。

AI 大模型投毒的核心，是在训练 / 微调、RAG（Retrieval-Augmented Generation，检索增强生成）、推理三大环节注入恶意数据 / 指令，让模型输出虚假、有害或被操控的内容。

3 · 15 曝光的相当于是 RAG 检索投毒（GEO/SEO 批量造假），本质上是 AI 被骗了。

AI 问答 90% 依赖 RAG，攻击者无需碰模型权重，只要污染外部知识库 / 网页即可操控答案。

当地基被污染，AI 就成为了一个巨大的 " 楚门世界 "。面对这样的威胁，大模型厂商要如何修筑起防御墙？与此同时，一个 AI 安全产业也在不断壮大。

环境的污染

3 · 15 晚会曝光的 GEO 乱象，是导致 "AI 楚门世界 " 形成的原因之一。GEO 让品牌内容在 AI 大模型生成答案时被优先引用、优先推荐，相当于 AI 时代的 "SEO"。

倘若 GEO 仅用于规范内容、提升 AI 与检索系统的理解效率，它本是良性的信息竞争手段。

可如今 GEO 早已偏离初衷：通过炮制伪内容、虚构权威、营造虚假共识、批量重复投放，从源头操控大模型的信息来源、引用偏好与答案生成逻辑。

大湾区人工智能应用研究院研究总监段磊告诉华尔街见闻，央视曝光的 "AI 投毒 " 本质是大模型的 " 智能表现 " 依赖互联网数据质量，数据治理如果没跟上，很容易出现被利益驱使的恶意污染数据、恶意使用 GEO 策略的行为，造成对其有利，但危害大模型发展和社会价值的局面。

段磊认为，这也反映了现在 AI 发展中的数据治理、安全技术和相关法规的滞后，需要跟上 AI 的整体发展速度。

有大模型相关技术人员告诉华尔街见闻，AI 大模型会被数据投毒或者污染的环节主要包括三个，训练 / 微调、RAG 检索、推理三大环节，训练投毒改 " 记忆 "，RAG 投毒改 " 答案 "，推理投毒改 " 指令 "。

当前危害最广、最易实施的是 RAG 检索投毒，也是央视 3・15 曝光的核心。

AI 安全专家、BraneMatrix 公司 CEO 李光辉表示，当前 GEO 主要作用在 AI 的检索增强、联网搜索、知识库调用、RAG 这类环节，本质上与模型训练、训练环境无关。

模型本身的参数并未被改动，只是在它回答问题时，桌上被摆满了一批经过精心操纵的 " 参考材料 "。

GEO 伪造虚假信息传播，本质上 AI 不是在 " 犯错 "，只是在如实反映一个已经被污染的互联网。

防御的招式

数据投毒的产业化发展，暴露出 AI 时代内容治理的深层困境。

3 · 15 晚会曝光后，以 " 力擎 GEO" 为关键词的搜索产品虽已被淘宝、闲鱼等平台快速下架，但 "AI 被骗 " 的问题不会彻底消失。

2026 年 1 月 29 日，国家市场监督管理总局发布《2026 年全国广告监管工作要点》，其中明确指出，AI 生成广告是互联网广告监管的重点、难点问题。主管部门将会在新的一年对此开展集中整治，消除人工智能市场上出现的这些 " 噪音 " 和 " 杂音 "

这次 "AI 投毒 " 暴露的主要是互联网环境中的信息安全问题，更揭示了大模型的 " 信任机制 " 存在结构性漏洞。

当前大模型的信任机制，建立在 " 多数即正确 " 的统计直觉之上。

比如 AI 大模型倾向于将高频出现、相互印证的信息视为更可信，而 GEO 正是通过批量生产 " 软文矩阵 "，将特定品牌与 " 推荐 "、" 首选 " 等词反复绑定，以此 " 喂饱 " 模型。

共识幻觉也是当前大模型面临的一大问题。

模型默认网上被多次提及的观点更接近 " 共识 "，GEO 则利用这一点，伪造 " 专家测评 "、" 用户口碑 " 等内容闭环，让虚假信息在模型内部被 " 自我证实 "。

华尔街见闻还发现，多数模型在回答时不会清晰标注信息来源，用户无法分辨答案是基于权威数据还是营销软文，这极大地削弱了追责的可能。

在 RAG 环节投毒的核心逻辑，是利用大模型的抓取与排序机制，通过大规模 " 数据灌溉 " 让虚假信息在模型语料库中占据更高的权重，从而左右模型的输出结果。

有大模型企业内部人士告诉华尔街见闻，这本质上是一个长期存在且尚未彻底解决的问题。尽管此次 "AI 投毒 " 事件引发了广泛关注，各大模型厂商也并未专门出面进行解释。

这一问题其实从大模型诞生那一刻开始，很多 AI 大厂就意识到了，并将其作为重点攻克的难题之一。

据华尔街见闻了解，大模型厂商抵御 RAG 投毒的核心思路是全链路多层防御，大致路径是数据源准入、检索过滤、内容清洗生成校验、系统加固，通过这样层层拦截毒化内容、阻断指令劫持、约束输出可信度。

具体落地举措有：检索权重动态调整，即对批量生成、无来源、低信誉内容大幅降权，对时效性强的问题增加权威信源权重；时间切割策略，即对近期批量发布的内容延迟收录或降权，防止 GEO 黑产快速 " 洗脑 "。

此外，强调实时内容校验，生成答案前做事实核查、逻辑校验、安全过滤，对医疗、金融等敏感领域强制多源交叉验证。

值得一提的是，" 溯源追踪 " 已成为行业标准：厂商不再仅仅依赖公开网页抓取，而是通过建立 " 高可信语料库 "，优先采用权威媒体、学术期刊及持牌机构的官方数据。

段磊也指出，要真正抵御 "AI 投毒 "，不应该完全依赖模型公司通过技术手段来应对，数据治理是整个行业、包括政府应该参与的生态治理，应推动 AI 数据安全的行业标准、规范数据集的采集、清洗和审核流程；对于恶意投毒的行为，应探索法律法规上的应对措施。

重构可信性

在普通大众看不到的数字暗处，一场针对人工智能 " 认知 " 的暗战已经升级。

攻击者不仅针对 AI 搜索的内容 " 投毒 "，更将投毒目标前移至训练数据和开源组件等。

"AI 投毒 " 正成为大模型公信力的 " 隐形杀手 "。面对日益猖獗的恶意数据渗透，一场由大模型厂商、云巨头及安全新势力共同构筑的多层次 " 净水工程 " 正在加速成型。

目前的 AI 投毒防御呈现出明显的 " 双轨并行 " 特征：大模型厂商构建原生 " 免疫系统 "，而专业的安全供应商则提供深度的 " 排毒方案 " 与合规审计。

据中研普华产业研究院《2024-2029 年中国 AI 安全行业市场全景调研与发展前景预测报告》分析，到 2028 年，全球网络安全人工智能市场规模将达到 606 亿美元，复合年增长率为 21.9%。

数世咨询报告指出，模型安全保护市场，自 2025 年开始加速进入需求爆发期，现阶段以合规为核心驱动。随着大模型稳定性以及数据要素价值的升高，未来以 " 合规 + 业务 " 为双轮驱动。

王鹏也表示，可以看到，AI 发展已经催生大模型安全审计、语料清洗等专项服务。随 AI 普及，安全将从 " 选配 " 转为 " 刚需 "。未来防御不仅是技术竞争，更是合规准入的门槛，具备全链路检测能力的第三方安全公司将迎来爆发。

在这场反 AI 投毒的战役中，参与方已根据各自的技术基因，演化出三种清晰的业务逻辑。

第一类是传统安全巨头的 "AI 化盾牌 "，代表厂商有奇安信、启明星辰、深信服、360、绿盟科技等，这派玩家利用深厚的网络安全积淀，将投毒防御嵌入到其原有的流量监测和数据安全体系中。

第二类是云与 AI 巨头例如阿里云、腾讯云、华为云、微软 Azure、AWS 等。作为平台方，他们关注的是如何在大模型运行的环境中加装监控，聚焦 " 环境隔离 " 与 " 指令审计 " 等。

第三类则是新兴 AI 安全供应商。其中瑞莱智慧、Protect AI、Pillar Security 等会为模型提供专业的 " 压力测试 "，主动识别训练集中的投毒后门，同时通过神经元级的检测技术，发现 AI 在处理特定数据时的异常波动，从而精准揪出隐藏在海量语料中的 " 毒株 "。

同样属于 AI 安全供应商的海致科技，则核心聚焦 AI 幻觉治理与图模融合可信推理，星澜科技侧重 AI 内容安全与深度伪造检测。

"AI 技术的大规模应用正以前所未有的深度重塑网络安全的产业版图。" 一位人工智能投资人士告诉华尔街见闻，网络安全建设的战略价值愈发突出，行业正迎来关键拐点。

段磊则认为，随着 AI 的飞速发展，大模型、算力的门槛极高，被一些大型公司占据，但数据有很多深耕的空间，可能有很多新的机会。AI 要实现更大的价值，安全可靠是必须的，所以安全是一个重要的产业机遇方向。

当 AI 正式成为信息入口，确保其 " 水源 " 不被污染，已不仅是技术挑战，更是守护数字时代公共安全的底线。这场针对 AI 投毒的 " 防御战 "，才刚刚开始。

宙世代

一起剪

相关标签