
随着生成式 AI 技术的兴起,生成各种内容的成本变得越来越低,而甄别内容真伪的成本却变得越来越高。借助 AI 模型,我们可以在短短几秒之内生成一篇逻辑自洽、文字工整的文章,但不幸的是,其中很可能夹杂着不少 AI 自己编造的事实。如果贸然采用这样的文本,可能造成很大的损失;而如果要将这些虚假内容一一查找出来,又需要花费大量时间。这种两难局面,着实让人头疼。更糟糕的是,这样的窘境似乎很难得到改善,因为在不少情况下,AI 自己也无法判断所生成内容的真伪。
1 月 10 日,加拿大阿尔伯塔大学的研究团队发布了一款名为 Gnosis(注:Gnosis 来自希腊语,意为 " 真知 ")的系统,为解决 AI" 一本正经胡说八道 " 的问题提出了一个新的方案。不同于传统的第三方检查思路,研究人员并未让 Gno-sis 充当 AI 模型的内容审查员,而是赋予它 " 诚实检查器 " 的角色。装备了 Gnosis 后,AI 模型在进行 " 思考 " 时,会同时读取自身内部产生的多种信号,并据此对生成内容的可靠性进行检验。
简单来说,当 AI 模型进行 " 思考 " 时,会产生两种重要的内部信号。第一种信号是 " 隐藏状态 "(Hidden States),即词元(Token)在 Transformer 隐藏层网络中对应的向量。从概念上看,它相当于人脑在思考时各功能区所表现出的活跃状况。第二种信号是 " 注意力模式 "(Attention Patterns),用于刻画模型在生成新词元时,重点参考了此前哪些词元,以及 " 注意力 " 如何在这些被参考的词元之间分配和跳跃。
研究人员发现,当 AI 生成正确答案时,这两类内部信号会呈现出相对稳定且可识别的模式;而当 AI 即将犯错或产生幻觉时,这些信号则会出现明显异常。基于这一发现,Gnosis 可以通过分析这两类内部信号,预测模型是否会给出可靠的答案。这一过程类似于医生通过观察病人的心电图和 X 光片来判断其健康状况。
为了验证 Gnosis 的可靠性,研究人员选取了五个规模不同的 AI 模型进行测试。这些模型的参数量从 17 亿到 200 亿不等,能够较好地代表目前市面上的主流模型。在测试过程中,研究人员让这些模型回答了大量问题,涵盖数学推理、学术知识以及开放性问题等多个类型。在模型回答问题的同时,Gno-sis 负责从旁监督并判断其答案的可靠性。结果显示,Gnosis 的表现十分亮眼:在数学推理问题上,其准确率达到了 95%;在学术知识问题上,其准确率超过 80%;而在开放性问题上,其准确率为 87%。在所有类型的任务中,Gnosis 的整体表现均明显优于其他系统。
Gnosis 的成功实践,为 " 用 AI 治理 AI" 提供了一个颇具启发性的案例。可以预见,如果类似技术在未来得到更广泛的应用,将为 " 用 AI 治理 AI" 这一治理思路的推广提供重要支撑。
那么,为什么用 AI 治理 AI 是必要的?目前这一思路主要有哪些实践路径?迄今为止,它取得了哪些成果,又面临着怎样的现实困难?其未来的发展前景又将如何展开?
人类治理 AI 为什么这么难?
在很长一段时间里,人类一直坚信一个原则:只要是我们自己创造的系统,就一定可以理解和控制它。无论是蒸汽机、铁路,还是电网、互联网,人们都相信,只要设计出足够聪明的制度、足够严密的法律、足够精细的监管,就能将它们纳入人类的秩序之中。
然而,AI 的出现却给这一信念带来了巨大冲击,其原因是多方面的。
首先,是因为当下的 AI 系统过于复杂,以至于人类很难对其进行全面掌控。
早在上世纪中叶," 控制论之父 " 维纳(Norbert Wiener)就提出过一个重要观点:人类与机器之间的差别并非本质性的,它们的不同主要体现在信息处理的复杂度上。人类之所以能够直接控制机器,前提在于机器系统的复杂度远低于人类本身。然而,当一个系统变得足够复杂时,这种直接控制就会变得不再可能。基于这一判断,维纳提出了一种新的治理理念:不是通过命令,而是通过结构;不是依赖完全理解,而是依靠调节。
几乎在同一时期,英国精神病学专家、控制论先驱罗斯 · 艾希比(Ross Ashby)提出了著名的 " 必要多样性定律 "(Law of Requisite Variety),即一个控制系统的复杂度,必须不低于被控制系统的复杂度。
如果我们接受上述观点,就不难得出一个推论:当下 AI 模型的复杂度,已经逼近甚至超出了人类所能有效控制的界限。我们知道,人类大脑中的神经元数量大约在 850 亿到 1200 亿之间,而近年来,许多 AI 模型的参数量早已超过这一数量。以当前主流的 GPT 模型为例,微软的一篇研究论文显示,GPT-5 的参数量约为 1.76 万亿。如果这一数据属实,那么 GPT-5 的参数规模已经比人脑神经元数量高出了整整一个量级。
其次,是因为 AI 的发展速度过快,使得治理进程始终落后于系统演化。
即便我们假设人类能够完全理解 AI 系统,速度问题依然无法回避。自 " 生成式 AI 革命 " 以来,AI 系统的演化节奏持续加快。几乎每天都会有新的模型问世,新的功能被开发,AI 能力以近乎指数级的速度增长。与此同时,AI 所引发的问题也随其能力扩张不断涌现。
相比之下,人类社会的反应速度却不可能与技术进步保持同步。从问题被发现,到展开讨论,再到形成共识、完成立法并落实执行,每一个环节都需要耗费大量时间。等到治理方案真正落地,问题本身往往已经发生变化。
现实中,这样的例子并不少见。例如,欧盟在制定《数字经济法案》时,几乎获得了专家群体的一致好评,但这部法律尚未全面实施,便已显露出滞后性,不得不再次修订。事实上,这一案例也再次说明,通过立法来治理高速演进的 AI 系统,天然面临着难以回避的时滞问题。
再次,是传统上为人类设计的治理方式,并不适合直接套用于 AI 治理。
尽管人类社会已经发展出多种成熟的治理机制,但它们普遍强调行为主体的主观意图、责任的明确划分以及因果关系的可追溯性。然而,AI 系统与人类存在根本差异。在实践中,AI 带来的问题更多源自优化目标的副作用、局部最优导致的整体失衡,或激励错配引发的结构性扭曲。这与人类社会中个体主观作恶,或有意利用规则漏洞谋取私利,有着本质上的不同。
例如,当某个人对特定人群存在歧视时,可以通过教育、规范或责任追究来加以纠正;但当类似问题出现在 AI 系统中,这套治理方式往往难以奏效。即便借助 " 产品责任 "(ProductLiabili-ty)的思路,在 AI 造成损害时追究开发者责任,如果开发者本身无法对训练数据和训练过程进行充分控制,模型依然可能延续甚至放大偏见。
总体来看,在当前环境下,AI 的复杂度和发展速度都已逼近甚至超越了人类单独治理的能力边界,而为人类社会量身定制的传统治理模式,也难以直接适配 AI 系统的运行逻辑。正是在这样的背景下," 用 AI 治理 AI" 的思路,才逐渐获得越来越多的关注与认同。
何谓 " 用 AI 治理 AI"?
2019 年,著名计算机科学家斯图尔特 · 罗素(Stuart Russell)出版了《人类兼容》(Human Compatible)一书。在书中,他提出了一个重要观点:未来的智能系统不能被简单理解为 " 执行既定指令的工具 ",而必须被设计为能够持续推断人类偏好,并不断修正自身行为的主体。罗素的这一判断,在很大程度上勾勒出了 " 用 AI 治理 AI" 的基本特征。
具体而言," 用 AI 治理 AI" 主要体现在以下几个方面。
首先," 用 AI 治理 AI" 是一种内嵌式治理。传统治理通常采取外部规训的结构:规则制定于系统之外,审查发生在行为之后,纠偏依赖人工干预。相比之下," 用 AI 治理 AI" 将治理机制直接嵌入系统内部,使风险识别、偏移检测与行为约束成为系统运行过程中的组成部分。在这种架构下,AI 系统可以通过持续的反馈机制,对自身行为进行动态调节。按照维纳的观点,这种内生反馈机制,更有助于维持复杂系统的稳定性。
其次," 用 AI 治理 AI" 是一种实时性的治理。传统治理高度依赖事后追责与阶段性审查,而 AI 系统所引发的风险往往以连续方式涌现。在这种情形下," 用 AI 治理 AI" 将治理前移至 AI 运行过程之中,使系统能够在推理和决策过程中,同步识别不稳定信号、异常路径与潜在风险,并及时对自身行为进行修正。
再次," 用 AI 治理 AI" 是一种同构性的治理。传统治理主要依赖人类的语义理解与规则表达,其可操作维度相对有限;而现代 AI 系统的行为具有高度的非线性与组合性,其行动空间本身是高维的。相比之下," 用 AI 治理 AI" 不再试图在语义层面完全理解系统意图,而是转向在结构层面监测其动力学特征,例如偏移、发散、异常、震荡与锁定,从而将治理依据从意义判断转向轨道判断,更好地应对 AI 系统的复杂性。
综上所述," 用 AI 治理 AI" 并非只是为治理者更换了一种更先进的工具,而是一种治理范式的转变。在治理主体从人类转向 AI 的同时,治理方式本身也实现了内嵌化、实时化与同构化的转型。
" 用 AI 治理 AI" 的主要模式
作为一种全新的治理范式," 用 AI 治理 AI" 的具体操作路径仍处于形成之中。从目前的实践情况看,已经逐步发展出几种具有代表性的治理模式。
第一种是宪法型治理(Constitu-tional Governance)。这种模式并不试图在每一次输出时都由外部进行裁决,而是尝试将一套抽象的行为原则直接嵌入系统之中,使其在生成过程中完成自我校验。通过这种方式,治理得以从外部干预转化为模型推理的一部分。例如,Anthropic 在训练其 Claude 模型的过程中,采用了 " 宪法 AI"(Constitu-tionalAI)技术。研究者首先定义一组抽象的行为规范,然后让模型在生成回答后,调用这些原则对自身输出进行自我批评(Self-critique)与自我修正(Self-revision)。在训练过程中,模型不仅需要学习如何给出答案,还需要学习如何依据 " 宪法 " 判断答案的合规性,并通过强化学习或偏好优化,将这种自我约束能力逐步内化。通过这一过程,Anthropic 将治理从外部人工审查转化为了模型内部的推理结构。
第二种是对抗型治理(Adversarial Governance)。由于 AI 模型的策略空间维度极高,仅凭人类之力几乎不可能穷举所有潜在风险路径,更遑论逐一提出应对方案。针对这一现实,一些研究者提出了对抗型治理的思路,即让 AI 攻击 AI,以此测试系统中潜在的风险点。具体而言,在训练过程中会引入两个模型,一个负责生成诱导性提示、越权策略或灰区行为,另一个则负责防御、过滤与修复。通过让两个模型持续对抗,就可以提前暴露潜在风险,并及时进行干预。通过这种持续博弈,模型的稳定性与安全性得以不断提升。在实践中,这种治理模式已经得到广泛应用,例如 OpenAI 的自动 " 红队 "、Anthropic 的自动越狱测试,以及谷歌的模型对抗评估,本质上都属于对抗型治理的具体实践。
第三种是模拟型治理(Simulation-based Governance)。在现实场景中,许多 AI 模型带来的风险并非源自单点失误,而是系统性后果。例如,一个语言模型在单独使用时可能是无害的,但当其被嵌入舆论系统、自动交易系统或自动执行链中时,相关风险往往会以非线性的方式被放大。在这种情况下,为了识别潜在风险并提前制定治理方案,就需要对 AI 系统的部署结果进行模拟,这正是模拟型治理的基本思路。目前,这一治理方式已在 AI 开发者中得到较为广泛的应用。在模型正式推出之前,开发者通常会通过多智能体仿真、智能体博弈等方式,对模型可能产生的社会和系统影响进行测试。从根本上看,这正是模拟型治理思路的具体体现。
第四种是审计型治理(Audit-based Governance)。这类治理模式并不直接干预模型的实时行为,而是对其行为进行持续监控、记录与结构化分析,例如自动化偏见检测、行为分布漂移监测以及输出聚类异常识别等。这种模式的意义并不在于即时制动,而在于为后续干预提供可追溯性与可问责性。在实际应用中,审计型治理尤为重要,因为它为法律监管、制度设计与社会审议提供了必要的接口和基础。
第五种是代理型治理(Agent-based Governance)。在这一模式中,治理不再由单一模块完成,而是由多个具有不同目标和激励结构的智能体协同实现。例如,一个治理系统中可能同时存在负责效率、安全和公平的不同代理,这些代理通过博弈或投票机制达成动态平衡。这种模式的灵感源自政治学中的分权思想,其核心并非追求单一意义上的最优解,而是防止某一目标被极端优化。在实践中,加密行业中常见的 DAO 组织,已经在不同程度上应用了代理型治理的思路。
第六种是自省型治理(Introspective Governance)。这种模式的核心理念在于,与其让人类在输出完成后判断 AI 是否出错,不如让 AI 在生成过程中同步评估自身的可靠性与风险状态。它并不要求系统理解伦理规范,而是要求系统能够识别各种可能的异常信号,并在必要时触发干预机制。这种治理方式虽然相对新颖,但已经在实践中获得了一定应用。例如,本文前文提到的 Gnosis 系统,正是自省型治理的最新成果之一。
不难看出,尽管上述六种治理模式在具体路径上各有侧重,但它们之间也存在明显的共性。例如,在这些模式中,治理不再依赖静态的文本规则,而是转化为运行中的结构机制;治理的依据不再是单纯的人类判断,而是机器内部的过程信号;治理也不再是一次性完成的设计,而是一个持续演化的过程。
需要指出的是,这六种模式并非彼此独立。在现实中,要真正落实 " 用 AI 治理 AI",很难依靠其中任何单一模式,而必须将多种治理方式加以组合,形成协同作用的 " 组合拳 "。唯有如此,AI 治理者才能更有效地应对 AI 发展过程中不断涌现的复杂问题,使治理效果不断提升。
" 用 AI 治理 AI" 的技术风险和应对
虽然 " 用 AI 治理 AI" 的思路听起来十分诱人,但它本身所面临的技术风险同样不可忽视。
一方面,它不可避免地会遭遇所有复杂系统都会面对的 " 二阶风险 "(SecondOrder Risk)问题。
著名社会学家卢曼(Niklas Luhmann)在研究社会系统时曾指出,任何自我指涉系统都会面临 " 观察者的观察 " 问题。当一个系统开始观察自身时,就会生成一个新的层级,而这一层级本身也需要被进一步观察。尽管这一结论最初源于对人类社会的研究,但同样适用于 AI 系统。如果让 AI 负责审计 AI、对抗 AI、模拟 AI 或标记风险,那么这些治理模块本身就会演变为新的权力节点。由此带来的问题是:谁来控制它们的参数?谁来定义它们的目标?又是谁能够修改它们的权重?
斯图尔特 · 罗素曾在多次演讲中反复强调,真正的危险并不在于 AI 变得过于聪明,而在于其目标函数被错误定义、被悄然篡改,或被极端优化。按照罗素的思路,保持目标函数的稳定性,是确保 AI 系统可控与可治理的重要前提。然而,从某种意义上看," 用 AI 治理 AI" 正是要随着环境和形式的变化不断调整这些目标函数。如果无法妥善回答 " 谁来治理 AI 治理者 " 这一问题,那么引入 "AI 治理者 " 本身,就可能蕴含着极高的系统性风险。
另一方面," 用 AI 治理 AI" 还必须应对 " 结构性合谋 " 的挑战。
这里所说的 " 合谋 ",并不是指 AI 像人类一样合谋作恶。至少在现阶段,并没有证据表明 AI 已经具备自主意识,因此这种主观意义上的合谋并不构成主要风险。然而,基于算法博弈所形成的 " 默契合谋 "(Tacit Collusion)却不容忽视。在许多情况下,它可能导致并非人类所期望的结果。
例如,假设某内容平台引入了一套 " 用 AI 治理 AI" 的架构:一个模型负责生成内容,一个模型负责判断是否违规,一个模型负责评估社会风险,另一个模型则负责优化系统稳定性,例如降低投诉率、减少监管干预等。起初,各个模块都能各司其职。但随着系统持续运行,它们可能逐渐 " 发现 " 一种更加稳定的策略,即生成情绪化程度较高、暗示性较强、却又不构成明确违规的内容。这类内容可以最大化用户互动,却不会触发合规模型的红线,也不会被风险模型判定为高危,同时还能显著降低投诉率。于是,在没有任何模块越权、也没有任何恶意指令的情况下,系统整体却自然收敛到一种 " 边缘合法 " 的内容模式。对每一个模块而言,这样的均衡状态无疑优于此前的表现,但对人类社会来说,其后果却可能是相当糟糕的。
正是基于上述风险,在采纳 " 用 AI 治理 AI" 思路的同时,必须确保治理系统本身同样是可治理的。为此,至少需要遵循以下几个基本原则。
首先," 治理 AI" 本身不能成为黑箱。也就是说,AI 治理系统必须具备可解释性、可追溯性与可审计性。只有在这种前提下,当 AI 治理系统自身的运行出现问题时,人类控制者才能及时发现并介入干预。
其次," 治理 AI" 必须是多中心的,而非单点式的。这意味着,未来的 AI 治理体系不应依赖单一的 " 超级裁判模型 ",而应由一组彼此相对独立、目标部分重叠、能够相互校验的治理模块共同构成。通过这样的设计,可以在结构上降低治理系统被操纵、被击穿或出现过拟合等问题的风险。
再次,人类不能将 " 价值定义权 " 交由机器。哲学家希拉里 · 普特南(Hilary Putnam)曾指出:" 事实可以被计算,但价值必须被讨论。" 在引入 AI 参与 AI 治理时,这一原则显得尤为重要。我们当然可以借助 AI 工具提升治理的自动化程度,但这并不意味着价值判断本身也应被自动化。唯有在价值定义过程中始终保持 " 人在回环 "(Human-in-the-Loop),坚持由人类通过讨论来确定 AI 系统的根本价值,才能从根本上避免 AI 治理偏离人类社会的核心利益。
" 用 AI 治理 AI" 的经济和社会影响
需要指出的是," 用 AI 治理 AI" 绝不仅仅是一种技术范式的改变。在 AI 时代,它所带来的经济和社会影响,可能是极为深远的。
首先,它将改变创新的方式。过去,AI 的发展与治理是两个相对独立的过程。AI 的发展主要由工程师、企业和科研机构推动,而治理则多由外部组织和监管机构承担。一般而言,治理往往明显滞后于技术发展。而当治理被嵌入为一种自动化过程,AI 创新就不再是 " 先试错、再监管 ",而是在约束中探索与演进。未来的 AI 系统,很可能从一开始就被设计为可审计、可纠偏、可 " 回滚 " 的对象,而不再像当下的许多模型那样,经历从野蛮生长、问题频发,再到事后治理和有序发展的过程。这种转变或许会在一定程度上放缓创新速度,但与此同时,也能够显著降低创新所伴随的风险。从总体效果看,它反而可能提升创新的整体效率。
其次,它将重塑责任与信任的结构。传统治理模式的基本逻辑是:决策由人作出,责任由人承担,信任指向具体的人或机构,治理的正当性主要建立在可追责性之上。而 " 用 AI 治理 AI" 打破了这一结构。当 AI 成为治理主体之后,许多关键判断不再由具体个人作出,而是由一套自动运行的系统完成。这意味着,责任不再集中于某一次具体决策,而是被分散到系统设计、目标设定、阈值选择等多个环节之中。与此同时,信任的对象也随之发生转移。人们将不再主要信任某位专家或某家公司,而是信任一种持续纠偏的机制。信任的内涵,也将从 " 我相信你不会犯错 ",转变为 " 我相信系统会在犯错之前进行修正 "。当治理型 AI 的引入改变了责任与信任的基本结构," 用 AI 治理 AI" 若要获得正当性,就必须同步重构相应的制度安排,而这一过程本身,可能引发一系列复杂的博弈。
再次,它还可能改变 AI 生态中的权力分布。当 " 用 AI 治理 AI" 逐渐成为 AI 治理的新范式,谁掌控治理型 AI,谁就掌握了能力边界的设定权。这意味着,未来真正的竞争优势,可能不再取决于谁的模型规模更大、性能更强,而在于谁的治理架构更具公信力、更容易被社会所接受。在这种背景下,治理型 AI 究竟应由谁来提供、由谁来定义,很可能成为 AI 时代最重要的政治问题之一,并在相当程度上影响一国内部以及国际层面的权力格局。
结语
" 用 AI 治理 AI" 并不是一种技术乌托邦式的设想,而是对技术现实的一种回应。当 AI 系统的复杂性、演化速度与组合空间已经超出人类直接治理的能力边界时,人类不得不将部分治理权力交由 AI 来承担。这并非一次简单的技术升级,而是一次深刻的治理结构重构。当治理型 AI 开始承担治理主体的角色,治理方式也将随之发生转变,从外部规训转向内嵌反馈,从事后纠错转向事前约束,从单点裁决转向持续运行的过程。
毫无疑问,伴随着这一治理结构的变化,既有的经济和社会制度也将经历深刻调整。在这样的背景下,我们或许必须重新思考一个根本性的问题:当 AI 已经能够在一定程度上治理自身,人类在这一体系中的位置,又应当如何重新界定?


