AI开始管AI了_ZAKER新闻

随着生成式 AI 技术的兴起，生成各种内容的成本变得越来越低，而甄别内容真伪的成本却变得越来越高。借助 AI 模型，我们可以在短短几秒之内生成一篇逻辑自洽、文字工整的文章，但不幸的是，其中很可能夹杂着不少 AI 自己编造的事实。如果贸然采用这样的文本，可能造成很大的损失；而如果要将这些虚假内容一一查找出来，又需要花费大量时间。这种两难局面，着实让人头疼。更糟糕的是，这样的窘境似乎很难得到改善，因为在不少情况下，AI 自己也无法判断所生成内容的真伪。

1 月 10 日，加拿大阿尔伯塔大学的研究团队发布了一款名为 Gnosis（注：Gnosis 来自希腊语，意为 " 真知 "）的系统，为解决 AI" 一本正经胡说八道 " 的问题提出了一个新的方案。不同于传统的第三方检查思路，研究人员并未让 Gno－sis 充当 AI 模型的内容审查员，而是赋予它 " 诚实检查器 " 的角色。装备了 Gnosis 后，AI 模型在进行 " 思考 " 时，会同时读取自身内部产生的多种信号，并据此对生成内容的可靠性进行检验。

简单来说，当 AI 模型进行 " 思考 " 时，会产生两种重要的内部信号。第一种信号是 " 隐藏状态 "（Hidden States），即词元（Token）在 Transformer 隐藏层网络中对应的向量。从概念上看，它相当于人脑在思考时各功能区所表现出的活跃状况。第二种信号是 " 注意力模式 "（Attention Patterns），用于刻画模型在生成新词元时，重点参考了此前哪些词元，以及 " 注意力 " 如何在这些被参考的词元之间分配和跳跃。

研究人员发现，当 AI 生成正确答案时，这两类内部信号会呈现出相对稳定且可识别的模式；而当 AI 即将犯错或产生幻觉时，这些信号则会出现明显异常。基于这一发现，Gnosis 可以通过分析这两类内部信号，预测模型是否会给出可靠的答案。这一过程类似于医生通过观察病人的心电图和 X 光片来判断其健康状况。

为了验证 Gnosis 的可靠性，研究人员选取了五个规模不同的 AI 模型进行测试。这些模型的参数量从 17 亿到 200 亿不等，能够较好地代表目前市面上的主流模型。在测试过程中，研究人员让这些模型回答了大量问题，涵盖数学推理、学术知识以及开放性问题等多个类型。在模型回答问题的同时，Gno－sis 负责从旁监督并判断其答案的可靠性。结果显示，Gnosis 的表现十分亮眼：在数学推理问题上，其准确率达到了 95%；在学术知识问题上，其准确率超过 80%；而在开放性问题上，其准确率为 87%。在所有类型的任务中，Gnosis 的整体表现均明显优于其他系统。

Gnosis 的成功实践，为 " 用 AI 治理 AI" 提供了一个颇具启发性的案例。可以预见，如果类似技术在未来得到更广泛的应用，将为 " 用 AI 治理 AI" 这一治理思路的推广提供重要支撑。

那么，为什么用 AI 治理 AI 是必要的？目前这一思路主要有哪些实践路径？迄今为止，它取得了哪些成果，又面临着怎样的现实困难？其未来的发展前景又将如何展开？

人类治理 AI 为什么这么难？

在很长一段时间里，人类一直坚信一个原则：只要是我们自己创造的系统，就一定可以理解和控制它。无论是蒸汽机、铁路，还是电网、互联网，人们都相信，只要设计出足够聪明的制度、足够严密的法律、足够精细的监管，就能将它们纳入人类的秩序之中。

然而，AI 的出现却给这一信念带来了巨大冲击，其原因是多方面的。

首先，是因为当下的 AI 系统过于复杂，以至于人类很难对其进行全面掌控。

早在上世纪中叶，" 控制论之父 " 维纳（Norbert Wiener）就提出过一个重要观点：人类与机器之间的差别并非本质性的，它们的不同主要体现在信息处理的复杂度上。人类之所以能够直接控制机器，前提在于机器系统的复杂度远低于人类本身。然而，当一个系统变得足够复杂时，这种直接控制就会变得不再可能。基于这一判断，维纳提出了一种新的治理理念：不是通过命令，而是通过结构；不是依赖完全理解，而是依靠调节。

几乎在同一时期，英国精神病学专家、控制论先驱罗斯 · 艾希比（Ross Ashby）提出了著名的 " 必要多样性定律 "（Law of Requisite Variety），即一个控制系统的复杂度，必须不低于被控制系统的复杂度。

如果我们接受上述观点，就不难得出一个推论：当下 AI 模型的复杂度，已经逼近甚至超出了人类所能有效控制的界限。我们知道，人类大脑中的神经元数量大约在 850 亿到 1200 亿之间，而近年来，许多 AI 模型的参数量早已超过这一数量。以当前主流的 GPT 模型为例，微软的一篇研究论文显示，GPT-5 的参数量约为 1.76 万亿。如果这一数据属实，那么 GPT-5 的参数规模已经比人脑神经元数量高出了整整一个量级。

其次，是因为 AI 的发展速度过快，使得治理进程始终落后于系统演化。

即便我们假设人类能够完全理解 AI 系统，速度问题依然无法回避。自 " 生成式 AI 革命 " 以来，AI 系统的演化节奏持续加快。几乎每天都会有新的模型问世，新的功能被开发，AI 能力以近乎指数级的速度增长。与此同时，AI 所引发的问题也随其能力扩张不断涌现。

相比之下，人类社会的反应速度却不可能与技术进步保持同步。从问题被发现，到展开讨论，再到形成共识、完成立法并落实执行，每一个环节都需要耗费大量时间。等到治理方案真正落地，问题本身往往已经发生变化。

现实中，这样的例子并不少见。例如，欧盟在制定《数字经济法案》时，几乎获得了专家群体的一致好评，但这部法律尚未全面实施，便已显露出滞后性，不得不再次修订。事实上，这一案例也再次说明，通过立法来治理高速演进的 AI 系统，天然面临着难以回避的时滞问题。

再次，是传统上为人类设计的治理方式，并不适合直接套用于 AI 治理。

尽管人类社会已经发展出多种成熟的治理机制，但它们普遍强调行为主体的主观意图、责任的明确划分以及因果关系的可追溯性。然而，AI 系统与人类存在根本差异。在实践中，AI 带来的问题更多源自优化目标的副作用、局部最优导致的整体失衡，或激励错配引发的结构性扭曲。这与人类社会中个体主观作恶，或有意利用规则漏洞谋取私利，有着本质上的不同。

例如，当某个人对特定人群存在歧视时，可以通过教育、规范或责任追究来加以纠正；但当类似问题出现在 AI 系统中，这套治理方式往往难以奏效。即便借助 " 产品责任 "（ProductLiabili－ty）的思路，在 AI 造成损害时追究开发者责任，如果开发者本身无法对训练数据和训练过程进行充分控制，模型依然可能延续甚至放大偏见。

总体来看，在当前环境下，AI 的复杂度和发展速度都已逼近甚至超越了人类单独治理的能力边界，而为人类社会量身定制的传统治理模式，也难以直接适配 AI 系统的运行逻辑。正是在这样的背景下，" 用 AI 治理 AI" 的思路，才逐渐获得越来越多的关注与认同。

何谓 " 用 AI 治理 AI"？

2019 年，著名计算机科学家斯图尔特 · 罗素（Stuart Russell）出版了《人类兼容》（Human Compatible）一书。在书中，他提出了一个重要观点：未来的智能系统不能被简单理解为 " 执行既定指令的工具 "，而必须被设计为能够持续推断人类偏好，并不断修正自身行为的主体。罗素的这一判断，在很大程度上勾勒出了 " 用 AI 治理 AI" 的基本特征。

具体而言，" 用 AI 治理 AI" 主要体现在以下几个方面。

首先，" 用 AI 治理 AI" 是一种内嵌式治理。传统治理通常采取外部规训的结构：规则制定于系统之外，审查发生在行为之后，纠偏依赖人工干预。相比之下，" 用 AI 治理 AI" 将治理机制直接嵌入系统内部，使风险识别、偏移检测与行为约束成为系统运行过程中的组成部分。在这种架构下，AI 系统可以通过持续的反馈机制，对自身行为进行动态调节。按照维纳的观点，这种内生反馈机制，更有助于维持复杂系统的稳定性。

其次，" 用 AI 治理 AI" 是一种实时性的治理。传统治理高度依赖事后追责与阶段性审查，而 AI 系统所引发的风险往往以连续方式涌现。在这种情形下，" 用 AI 治理 AI" 将治理前移至 AI 运行过程之中，使系统能够在推理和决策过程中，同步识别不稳定信号、异常路径与潜在风险，并及时对自身行为进行修正。

再次，" 用 AI 治理 AI" 是一种同构性的治理。传统治理主要依赖人类的语义理解与规则表达，其可操作维度相对有限；而现代 AI 系统的行为具有高度的非线性与组合性，其行动空间本身是高维的。相比之下，" 用 AI 治理 AI" 不再试图在语义层面完全理解系统意图，而是转向在结构层面监测其动力学特征，例如偏移、发散、异常、震荡与锁定，从而将治理依据从意义判断转向轨道判断，更好地应对 AI 系统的复杂性。

综上所述，" 用 AI 治理 AI" 并非只是为治理者更换了一种更先进的工具，而是一种治理范式的转变。在治理主体从人类转向 AI 的同时，治理方式本身也实现了内嵌化、实时化与同构化的转型。

" 用 AI 治理 AI" 的主要模式

作为一种全新的治理范式，" 用 AI 治理 AI" 的具体操作路径仍处于形成之中。从目前的实践情况看，已经逐步发展出几种具有代表性的治理模式。

第一种是宪法型治理（Constitu－tional Governance）。这种模式并不试图在每一次输出时都由外部进行裁决，而是尝试将一套抽象的行为原则直接嵌入系统之中，使其在生成过程中完成自我校验。通过这种方式，治理得以从外部干预转化为模型推理的一部分。例如，Anthropic 在训练其 Claude 模型的过程中，采用了 " 宪法 AI"（Constitu－tionalAI）技术。研究者首先定义一组抽象的行为规范，然后让模型在生成回答后，调用这些原则对自身输出进行自我批评（Self-critique）与自我修正（Self-revision）。在训练过程中，模型不仅需要学习如何给出答案，还需要学习如何依据 " 宪法 " 判断答案的合规性，并通过强化学习或偏好优化，将这种自我约束能力逐步内化。通过这一过程，Anthropic 将治理从外部人工审查转化为了模型内部的推理结构。

第二种是对抗型治理（Adversarial Governance）。由于 AI 模型的策略空间维度极高，仅凭人类之力几乎不可能穷举所有潜在风险路径，更遑论逐一提出应对方案。针对这一现实，一些研究者提出了对抗型治理的思路，即让 AI 攻击 AI，以此测试系统中潜在的风险点。具体而言，在训练过程中会引入两个模型，一个负责生成诱导性提示、越权策略或灰区行为，另一个则负责防御、过滤与修复。通过让两个模型持续对抗，就可以提前暴露潜在风险，并及时进行干预。通过这种持续博弈，模型的稳定性与安全性得以不断提升。在实践中，这种治理模式已经得到广泛应用，例如 OpenAI 的自动 " 红队 "、Anthropic 的自动越狱测试，以及谷歌的模型对抗评估，本质上都属于对抗型治理的具体实践。

第三种是模拟型治理（Simulation-based Governance）。在现实场景中，许多 AI 模型带来的风险并非源自单点失误，而是系统性后果。例如，一个语言模型在单独使用时可能是无害的，但当其被嵌入舆论系统、自动交易系统或自动执行链中时，相关风险往往会以非线性的方式被放大。在这种情况下，为了识别潜在风险并提前制定治理方案，就需要对 AI 系统的部署结果进行模拟，这正是模拟型治理的基本思路。目前，这一治理方式已在 AI 开发者中得到较为广泛的应用。在模型正式推出之前，开发者通常会通过多智能体仿真、智能体博弈等方式，对模型可能产生的社会和系统影响进行测试。从根本上看，这正是模拟型治理思路的具体体现。

第四种是审计型治理（Audit-based Governance）。这类治理模式并不直接干预模型的实时行为，而是对其行为进行持续监控、记录与结构化分析，例如自动化偏见检测、行为分布漂移监测以及输出聚类异常识别等。这种模式的意义并不在于即时制动，而在于为后续干预提供可追溯性与可问责性。在实际应用中，审计型治理尤为重要，因为它为法律监管、制度设计与社会审议提供了必要的接口和基础。

第五种是代理型治理（Agent-based Governance）。在这一模式中，治理不再由单一模块完成，而是由多个具有不同目标和激励结构的智能体协同实现。例如，一个治理系统中可能同时存在负责效率、安全和公平的不同代理，这些代理通过博弈或投票机制达成动态平衡。这种模式的灵感源自政治学中的分权思想，其核心并非追求单一意义上的最优解，而是防止某一目标被极端优化。在实践中，加密行业中常见的 DAO 组织，已经在不同程度上应用了代理型治理的思路。

第六种是自省型治理（Introspective Governance）。这种模式的核心理念在于，与其让人类在输出完成后判断 AI 是否出错，不如让 AI 在生成过程中同步评估自身的可靠性与风险状态。它并不要求系统理解伦理规范，而是要求系统能够识别各种可能的异常信号，并在必要时触发干预机制。这种治理方式虽然相对新颖，但已经在实践中获得了一定应用。例如，本文前文提到的 Gnosis 系统，正是自省型治理的最新成果之一。

不难看出，尽管上述六种治理模式在具体路径上各有侧重，但它们之间也存在明显的共性。例如，在这些模式中，治理不再依赖静态的文本规则，而是转化为运行中的结构机制；治理的依据不再是单纯的人类判断，而是机器内部的过程信号；治理也不再是一次性完成的设计，而是一个持续演化的过程。

需要指出的是，这六种模式并非彼此独立。在现实中，要真正落实 " 用 AI 治理 AI"，很难依靠其中任何单一模式，而必须将多种治理方式加以组合，形成协同作用的 " 组合拳 "。唯有如此，AI 治理者才能更有效地应对 AI 发展过程中不断涌现的复杂问题，使治理效果不断提升。

" 用 AI 治理 AI" 的技术风险和应对

虽然 " 用 AI 治理 AI" 的思路听起来十分诱人，但它本身所面临的技术风险同样不可忽视。

一方面，它不可避免地会遭遇所有复杂系统都会面对的 " 二阶风险 "（SecondOrder Risk）问题。

著名社会学家卢曼（Niklas Luhmann）在研究社会系统时曾指出，任何自我指涉系统都会面临 " 观察者的观察 " 问题。当一个系统开始观察自身时，就会生成一个新的层级，而这一层级本身也需要被进一步观察。尽管这一结论最初源于对人类社会的研究，但同样适用于 AI 系统。如果让 AI 负责审计 AI、对抗 AI、模拟 AI 或标记风险，那么这些治理模块本身就会演变为新的权力节点。由此带来的问题是：谁来控制它们的参数？谁来定义它们的目标？又是谁能够修改它们的权重？

斯图尔特 · 罗素曾在多次演讲中反复强调，真正的危险并不在于 AI 变得过于聪明，而在于其目标函数被错误定义、被悄然篡改，或被极端优化。按照罗素的思路，保持目标函数的稳定性，是确保 AI 系统可控与可治理的重要前提。然而，从某种意义上看，" 用 AI 治理 AI" 正是要随着环境和形式的变化不断调整这些目标函数。如果无法妥善回答 " 谁来治理 AI 治理者 " 这一问题，那么引入 "AI 治理者 " 本身，就可能蕴含着极高的系统性风险。

另一方面，" 用 AI 治理 AI" 还必须应对 " 结构性合谋 " 的挑战。

这里所说的 " 合谋 "，并不是指 AI 像人类一样合谋作恶。至少在现阶段，并没有证据表明 AI 已经具备自主意识，因此这种主观意义上的合谋并不构成主要风险。然而，基于算法博弈所形成的 " 默契合谋 "（Tacit Collusion）却不容忽视。在许多情况下，它可能导致并非人类所期望的结果。

例如，假设某内容平台引入了一套 " 用 AI 治理 AI" 的架构：一个模型负责生成内容，一个模型负责判断是否违规，一个模型负责评估社会风险，另一个模型则负责优化系统稳定性，例如降低投诉率、减少监管干预等。起初，各个模块都能各司其职。但随着系统持续运行，它们可能逐渐 " 发现 " 一种更加稳定的策略，即生成情绪化程度较高、暗示性较强、却又不构成明确违规的内容。这类内容可以最大化用户互动，却不会触发合规模型的红线，也不会被风险模型判定为高危，同时还能显著降低投诉率。于是，在没有任何模块越权、也没有任何恶意指令的情况下，系统整体却自然收敛到一种 " 边缘合法 " 的内容模式。对每一个模块而言，这样的均衡状态无疑优于此前的表现，但对人类社会来说，其后果却可能是相当糟糕的。

正是基于上述风险，在采纳 " 用 AI 治理 AI" 思路的同时，必须确保治理系统本身同样是可治理的。为此，至少需要遵循以下几个基本原则。

首先，" 治理 AI" 本身不能成为黑箱。也就是说，AI 治理系统必须具备可解释性、可追溯性与可审计性。只有在这种前提下，当 AI 治理系统自身的运行出现问题时，人类控制者才能及时发现并介入干预。

其次，" 治理 AI" 必须是多中心的，而非单点式的。这意味着，未来的 AI 治理体系不应依赖单一的 " 超级裁判模型 "，而应由一组彼此相对独立、目标部分重叠、能够相互校验的治理模块共同构成。通过这样的设计，可以在结构上降低治理系统被操纵、被击穿或出现过拟合等问题的风险。

再次，人类不能将 " 价值定义权 " 交由机器。哲学家希拉里 · 普特南（Hilary Putnam）曾指出：" 事实可以被计算，但价值必须被讨论。" 在引入 AI 参与 AI 治理时，这一原则显得尤为重要。我们当然可以借助 AI 工具提升治理的自动化程度，但这并不意味着价值判断本身也应被自动化。唯有在价值定义过程中始终保持 " 人在回环 "（Human-in-the-Loop），坚持由人类通过讨论来确定 AI 系统的根本价值，才能从根本上避免 AI 治理偏离人类社会的核心利益。

" 用 AI 治理 AI" 的经济和社会影响

需要指出的是，" 用 AI 治理 AI" 绝不仅仅是一种技术范式的改变。在 AI 时代，它所带来的经济和社会影响，可能是极为深远的。

首先，它将改变创新的方式。过去，AI 的发展与治理是两个相对独立的过程。AI 的发展主要由工程师、企业和科研机构推动，而治理则多由外部组织和监管机构承担。一般而言，治理往往明显滞后于技术发展。而当治理被嵌入为一种自动化过程，AI 创新就不再是 " 先试错、再监管 "，而是在约束中探索与演进。未来的 AI 系统，很可能从一开始就被设计为可审计、可纠偏、可 " 回滚 " 的对象，而不再像当下的许多模型那样，经历从野蛮生长、问题频发，再到事后治理和有序发展的过程。这种转变或许会在一定程度上放缓创新速度，但与此同时，也能够显著降低创新所伴随的风险。从总体效果看，它反而可能提升创新的整体效率。

其次，它将重塑责任与信任的结构。传统治理模式的基本逻辑是：决策由人作出，责任由人承担，信任指向具体的人或机构，治理的正当性主要建立在可追责性之上。而 " 用 AI 治理 AI" 打破了这一结构。当 AI 成为治理主体之后，许多关键判断不再由具体个人作出，而是由一套自动运行的系统完成。这意味着，责任不再集中于某一次具体决策，而是被分散到系统设计、目标设定、阈值选择等多个环节之中。与此同时，信任的对象也随之发生转移。人们将不再主要信任某位专家或某家公司，而是信任一种持续纠偏的机制。信任的内涵，也将从 " 我相信你不会犯错 "，转变为 " 我相信系统会在犯错之前进行修正 "。当治理型 AI 的引入改变了责任与信任的基本结构，" 用 AI 治理 AI" 若要获得正当性，就必须同步重构相应的制度安排，而这一过程本身，可能引发一系列复杂的博弈。

再次，它还可能改变 AI 生态中的权力分布。当 " 用 AI 治理 AI" 逐渐成为 AI 治理的新范式，谁掌控治理型 AI，谁就掌握了能力边界的设定权。这意味着，未来真正的竞争优势，可能不再取决于谁的模型规模更大、性能更强，而在于谁的治理架构更具公信力、更容易被社会所接受。在这种背景下，治理型 AI 究竟应由谁来提供、由谁来定义，很可能成为 AI 时代最重要的政治问题之一，并在相当程度上影响一国内部以及国际层面的权力格局。

结语

" 用 AI 治理 AI" 并不是一种技术乌托邦式的设想，而是对技术现实的一种回应。当 AI 系统的复杂性、演化速度与组合空间已经超出人类直接治理的能力边界时，人类不得不将部分治理权力交由 AI 来承担。这并非一次简单的技术升级，而是一次深刻的治理结构重构。当治理型 AI 开始承担治理主体的角色，治理方式也将随之发生转变，从外部规训转向内嵌反馈，从事后纠错转向事前约束，从单点裁决转向持续运行的过程。

毫无疑问，伴随着这一治理结构的变化，既有的经济和社会制度也将经历深刻调整。在这样的背景下，我们或许必须重新思考一个根本性的问题：当 AI 已经能够在一定程度上治理自身，人类在这一体系中的位置，又应当如何重新界定？