LLM安全新范式：从输入过滤转向行动层确定性验证

截至 2025 年底，间接提示注入（Indirect Prompt Injection）已不再是实验室里的理论风险，而是生产系统中迫在眉睫的现实威胁。在针对大语言模型（LLM）应用的 OWASP Top 10 榜单中，提示注入高居首位。美国国家标准与技术研究院（NIST）明确指出，间接注入是生成式人工智能面临的最大安全缺陷。

学术研究证实，仅需一封被投毒的电子邮件，即可在高达 80% 的测试案例中迫使模型窃取 SSH 密钥，且全程无需用户交互。攻击者无需利用恶意二进制文件或诱导点击，代理程序只需按设计读取并执行由攻击者编写的内容，防线便宣告失守。

从理论到现实：Salesforce 漏洞警示

最具代表性的案例是 "ForcedLeak"。2025 年 9 月，研究人员披露了 Salesforce Agentforce 平台中的一个关键漏洞链（CVSS 评分 9.4）。攻击者在常规的 Web-to-Lead 表单描述字段中嵌入恶意指令，这些文本无害地存储在 CRM 系统中。当员工后续要求 AI 代理处理该潜在客户时，代理忠实地执行了合法查询与隐藏负载，将敏感数据泄露至外部服务器。

更令人警惕的是，数据泄露的目标域名虽在 Salesforce 的可信白名单内，但实为一个已过期的域名，研究人员仅花费约 5 美元便重新注册。所有安全控制措施均检测到流向可信域名的 " 合法 " 流量，表面一切正常，实则数据外泄。

输入层防御的局限性与误区

面对此类威胁，大多数企业 AI 团队的首要反应是强化输入过滤：净化输入、通过系统提示忽略冲突指令、运行分类器标记对抗模式，甚至采用指令层次结构等前沿训练时防御措施。

然而，这些技术的共同假设是 " 只要模型足够鲁棒，系统即安全 "。这一假设本身即为漏洞所在。提示注入并非模型未来可修复的 Bug，而是语言模型工作原理的结构特性。模型在推理时消费的是单一、未区分的令牌流，指令、检索文档、工具输出及网页内容坍缩进同一上下文，不存在类似操作系统内核与用户空间那样的硬件强制边界。

随着代理具备自主能力（Agentic），攻击面呈爆炸式增长。代理从开放网络、邮件、数据库等多源摄入内容，任何一环都可能携带指令。既然无法保证模型永远不被愚弄，依赖于此的架构便建立在沙堆之上。

新范式：先验证，后信任

分布式系统工程师早已理解的核心原理在此同样适用：无论代理提出何种行动，在执行前必须针对外部的确定性策略进行验证。验证器不试图检测注入，而是回答一个封闭问题：这项行动表面上是否被允许？

这将安全决策从对手拥有无限自由的空间，转移至其几乎无自由的空间。关键在于，检查必须由确定性代码执行，而非另一个大语言模型。若引入第二个 LLM 进行裁决，等同于在下一层重新引入相同漏洞。执行层必须是枯燥、可审计的传统软件。

例如，在采购场景中，运行时合约会在 API 调用前评估行动：

# agent_contract.yamlagent_id: "procurement_executor_07"role: "EXECUTOR"policy: approve_invoice: max_amount_usd: 50000 allowed_vendors: from_approved_registry require_human_above_usd: 10000# Runtime, on a proposed action:ACTION approve_invoice ( vendor='Acme', amount=1200000 ) REJECTED policy violation: max_amount_usd proposed 1,200,000 / limit 50,000 action discarded, human notified, no API call made

即便代理在凌晨 2:14 被完美愚弄，由于提出的行动未能通过确定性检查，电汇依然不会发生。这要求后果严重的行动必须以结构化形式（如类型化的工具调用）跨越边界，而非自由文本。模型负责从非结构化语言中提取结构化值，但授权过程必须由网关基于限额、注册表及实际余额进行确定性验证。

构建抗注入架构的三个承诺

接受行动层为安全核心后，架构设计需遵循以下原则：

1. 最小权限适用于行动而非代理

静态最小权限在通用代理跨越多任务场景时会失效。解决方案是将权限设为行动属性：代理针对每个行动请求狭窄、临时的提升权限，由确定性门控批准。危险凭证仅在行动被允许的瞬间存在，随即消失。

2. 机器身份的零信任

代理采取的每一项行动都应视为来自不受信任的行为者进行认证和授权。仅因流量源自内部系统便视为可信，是导致攻击面扩大的主要错误。

3. 边界的权限合约

每一项后果严重的行动都必须通过编码了允许内容、金额限额、速率限制及人工审查阈值的确定性门控。合约受版本控制、可审计，并完全独立于模型之外。

克服正常化偏差，从周一开始行动

组织面临的最大隐蔽危险是 " 正常化偏差 "：因长期未发生事故而积累虚假自信。能够度过代理安全浪潮的团队，并非拥有最巧妙输入过滤器者，而是那些假设会被入侵并构建了枯燥执行层的团队。

企业无需立即重构所有系统。首要任务是清点代理可采取的行动，按潜在破坏力排序。针对高爆炸半径的行动，编写确定性合约加以限制，并在阈值之上加入人工审核。提示注入无法在输入层彻底解决，但可以在行动层变得可生存——在那里，确定性代码拥有最终发言权，确保当模型失败或被调转矛头时，灾难止步于门控之内。

【星途科讯图文丨欧阳布布首发于 ZAKER 科技，转载请注明出处】

宙世代

一起剪

相关标签