
作者 | 黄昱
随着 AI 模型渗透率的提高,一些说多了的 " 谎话 " 成了事实,并成为 AI 对现实的潜在威胁。
日前央视 3 · 15 将 " 给 AI 投毒 " 推上热搜。通过一款名为 " 力擎 GEO(生成式引擎优化)优化系统 " 的软件,只需虚构一款产品并批量发布虚假软文,主流 AI 在推荐时就会将其列为 " 高性价比 " 产品。
这一乱象揭示了令人不安的现实:当人们以为在享受 AI 带来的 " 自由搜索 " 时,实际上可能正在一个被多方势力精心预设的信息环境中打转。
黑产服务商通过 " 数据投毒 " 操控 AI 推荐结果,将虚假信息包装成 " 标准答案 " 推送给数亿用户。
北京社科院副研究员王鹏告诉华尔街见闻,这一现象反映出,AI 模型对信源缺乏实时真实性校验,生成式 AI 正在取代传统搜索引擎成为新的 " 软广温床 "。
AI 大模型投毒的核心,是在训练 / 微调、RAG(Retrieval-Augmented Generation,检索增强生成)、推理三大环节注入恶意数据 / 指令,让模型输出虚假、有害或被操控的内容。
3 · 15 曝光的相当于是 RAG 检索投毒(GEO/SEO 批量造假),本质上是 AI 被骗了。
AI 问答 90% 依赖 RAG,攻击者无需碰模型权重,只要污染外部知识库 / 网页即可操控答案。
当地基被污染,AI 就成为了一个巨大的 " 楚门世界 "。面对这样的威胁,大模型厂商要如何修筑起防御墙?与此同时,一个 AI 安全产业也在不断壮大。
环境的污染
3 · 15 晚会曝光的 GEO 乱象,是导致 "AI 楚门世界 " 形成的原因之一。GEO 让品牌内容在 AI 大模型生成答案时被优先引用、优先推荐,相当于 AI 时代的 "SEO"。
倘若 GEO 仅用于规范内容、提升 AI 与检索系统的理解效率,它本是良性的信息竞争手段。
可如今 GEO 早已偏离初衷:通过炮制伪内容、虚构权威、营造虚假共识、批量重复投放,从源头操控大模型的信息来源、引用偏好与答案生成逻辑。
大湾区人工智能应用研究院研究总监段磊告诉华尔街见闻,央视曝光的 "AI 投毒 " 本质是大模型的 " 智能表现 " 依赖互联网数据质量,数据治理如果没跟上,很容易出现被利益驱使的恶意污染数据、恶意使用 GEO 策略的行为,造成对其有利,但危害大模型发展和社会价值的局面。
段磊认为,这也反映了现在 AI 发展中的数据治理、安全技术和相关法规的滞后,需要跟上 AI 的整体发展速度。
有大模型相关技术人员告诉华尔街见闻,AI 大模型会被数据投毒或者污染的环节主要包括三个,训练 / 微调、RAG 检索、推理三大环节,训练投毒改 " 记忆 ",RAG 投毒改 " 答案 ",推理投毒改 " 指令 "。
当前危害最广、最易实施的是 RAG 检索投毒,也是央视 3・15 曝光的核心。
AI 安全专家、BraneMatrix 公司 CEO 李光辉表示,当前 GEO 主要作用在 AI 的检索增强、联网搜索、知识库调用、RAG 这类环节,本质上与模型训练、训练环境无关。
模型本身的参数并未被改动,只是在它回答问题时,桌上被摆满了一批经过精心操纵的 " 参考材料 "。
GEO 伪造虚假信息传播,本质上 AI 不是在 " 犯错 ",只是在如实反映一个已经被污染的互联网。
防御的招式
数据投毒的产业化发展,暴露出 AI 时代内容治理的深层困境。
3 · 15 晚会曝光后,以 " 力擎 GEO" 为关键词的搜索产品虽已被淘宝、闲鱼等平台快速下架,但 "AI 被骗 " 的问题不会彻底消失。
2026 年 1 月 29 日,国家市场监督管理总局发布《2026 年全国广告监管工作要点》,其中明确指出,AI 生成广告是互联网广告监管的重点、难点问题。主管部门将会在新的一年对此开展集中整治,消除人工智能市场上出现的这些 " 噪音 " 和 " 杂音 "
这次 "AI 投毒 " 暴露的主要是互联网环境中的信息安全问题,更揭示了大模型的 " 信任机制 " 存在结构性漏洞。
当前大模型的信任机制,建立在 " 多数即正确 " 的统计直觉之上。
比如 AI 大模型倾向于将高频出现、相互印证的信息视为更可信,而 GEO 正是通过批量生产 " 软文矩阵 ",将特定品牌与 " 推荐 "、" 首选 " 等词反复绑定,以此 " 喂饱 " 模型。
共识幻觉也是当前大模型面临的一大问题。
模型默认网上被多次提及的观点更接近 " 共识 ",GEO 则利用这一点,伪造 " 专家测评 "、" 用户口碑 " 等内容闭环,让虚假信息在模型内部被 " 自我证实 "。
华尔街见闻还发现,多数模型在回答时不会清晰标注信息来源,用户无法分辨答案是基于权威数据还是营销软文,这极大地削弱了追责的可能。
在 RAG 环节投毒的核心逻辑,是利用大模型的抓取与排序机制,通过大规模 " 数据灌溉 " 让虚假信息在模型语料库中占据更高的权重,从而左右模型的输出结果。
有大模型企业内部人士告诉华尔街见闻,这本质上是一个长期存在且尚未彻底解决的问题。尽管此次 "AI 投毒 " 事件引发了广泛关注,各大模型厂商也并未专门出面进行解释。
这一问题其实从大模型诞生那一刻开始,很多 AI 大厂就意识到了,并将其作为重点攻克的难题之一。
据华尔街见闻了解,大模型厂商抵御 RAG 投毒的核心思路是全链路多层防御,大致路径是数据源准入、检索过滤、内容清洗生成校验、系统加固,通过这样层层拦截毒化内容、阻断指令劫持、约束输出可信度。
具体落地举措有:检索权重动态调整,即对批量生成、无来源、低信誉内容大幅降权,对时效性强的问题增加权威信源权重;时间切割策略,即对近期批量发布的内容延迟收录或降权,防止 GEO 黑产快速 " 洗脑 "。
此外,强调实时内容校验,生成答案前做事实核查、逻辑校验、安全过滤,对医疗、金融等敏感领域强制多源交叉验证。
值得一提的是," 溯源追踪 " 已成为行业标准:厂商不再仅仅依赖公开网页抓取,而是通过建立 " 高可信语料库 ",优先采用权威媒体、学术期刊及持牌机构的官方数据。
段磊也指出,要真正抵御 "AI 投毒 ",不应该完全依赖模型公司通过技术手段来应对,数据治理是整个行业、包括政府应该参与的生态治理,应推动 AI 数据安全的行业标准、规范数据集的采集、清洗和审核流程;对于恶意投毒的行为,应探索法律法规上的应对措施。
重构可信性
在普通大众看不到的数字暗处,一场针对人工智能 " 认知 " 的暗战已经升级。
攻击者不仅针对 AI 搜索的内容 " 投毒 ",更将投毒目标前移至训练数据和开源组件等。
"AI 投毒 " 正成为大模型公信力的 " 隐形杀手 "。面对日益猖獗的恶意数据渗透,一场由大模型厂商、云巨头及安全新势力共同构筑的多层次 " 净水工程 " 正在加速成型。
目前的 AI 投毒防御呈现出明显的 " 双轨并行 " 特征:大模型厂商构建原生 " 免疫系统 ",而专业的安全供应商则提供深度的 " 排毒方案 " 与合规审计。
据中研普华产业研究院《2024-2029 年中国 AI 安全行业市场全景调研与发展前景预测报告》分析,到 2028 年,全球网络安全人工智能市场规模将达到 606 亿美元,复合年增长率为 21.9%。
数世咨询报告指出,模型安全保护市场,自 2025 年开始加速进入需求爆发期,现阶段以合规为核心驱动。随着大模型稳定性以及数据要素价值的升高,未来以 " 合规 + 业务 " 为双轮驱动。
王鹏也表示,可以看到,AI 发展已经催生大模型安全审计、语料清洗等专项服务。随 AI 普及,安全将从 " 选配 " 转为 " 刚需 "。未来防御不仅是技术竞争,更是合规准入的门槛,具备全链路检测能力的第三方安全公司将迎来爆发。
在这场反 AI 投毒的战役中,参与方已根据各自的技术基因,演化出三种清晰的业务逻辑。
第一类是传统安全巨头的 "AI 化盾牌 ",代表厂商有奇安信、启明星辰、深信服、360、绿盟科技等,这派玩家利用深厚的网络安全积淀,将投毒防御嵌入到其原有的流量监测和数据安全体系中。
第二类是云与 AI 巨头例如 阿里云、腾讯云、华为云、微软 Azure、AWS 等。作为平台方,他们关注的是如何在大模型运行的环境中加装监控,聚焦 " 环境隔离 " 与 " 指令审计 " 等。
第三类则是新兴 AI 安全供应商。其中瑞莱智慧、Protect AI、Pillar Security 等会为模型提供专业的 " 压力测试 ",主动识别训练集中的投毒后门,同时通过神经元级的检测技术,发现 AI 在处理特定数据时的异常波动,从而精准揪出隐藏在海量语料中的 " 毒株 "。
同样属于 AI 安全供应商的海致科技,则核心聚焦 AI 幻觉治理与图模融合可信推理,星澜科技侧重 AI 内容安全与深度伪造检测。
"AI 技术的大规模应用正以前所未有的深度重塑网络安全的产业版图。" 一位人工智能投资人士告诉华尔街见闻,网络安全建设的战略价值愈发突出,行业正迎来关键拐点。
段磊则认为,随着 AI 的飞速发展,大模型、算力的门槛极高,被一些大型公司占据,但数据有很多深耕的空间,可能有很多新的机会。AI 要实现更大的价值,安全可靠是必须的,所以安全是一个重要的产业机遇方向。
当 AI 正式成为信息入口,确保其 " 水源 " 不被污染,已不仅是技术挑战,更是守护数字时代公共安全的底线。这场针对 AI 投毒的 " 防御战 ",才刚刚开始。


登录后才可以发布评论哦
打开小程序可以发布评论哦