当AI欺骗AI，谁为狂飙的机器学习保驾护航？

导语

AI 技术的狂飙突进引发了人们对AI系统的担忧：如果具有超越人类智能水平的AI可以形成自己的目标，并且这个目标与人类赋予的目标不对齐时，可能会反过来对抗整个人类。事实上，即使是当前最先进的机器学习系统也很容易受到对抗性攻击，而未来即将出现的变革性AI系统也很可能同样容易受到攻击。长期致力于大模型价值对齐研究的 Far AI 公司创始人 Adam Gleave 近期发表博客文章认为，有两种可能的方法可以解决机器学习系统的对齐问题：一方面是提高系统的对抗鲁棒性，另一方面则是开发容错对齐方法，对机器学习系统的漏洞更具容忍性。文章指出鲁棒性的三种可能未来发展轨迹，和颇有前景的三个未来研究方向。

集智俱乐部和安远AI联合举办"大模型安全与对齐"读书会，由多位海内外一线研究者联合发起，针对大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题，展开共读共研活动。读书会自2024年1月27日正式开始，每周六上午举行，为期8-10周。第一期邀请 Adam Gleave 做了主题为"AGI安全：风险与研究方向"的分享。欢迎从事相关研究与应用工作的朋友报名加入！

研究领域：AI安全与对齐，机器学习系统，对抗鲁棒性，容错对齐

Adam Gleave | 作者

黎谨旗 | 译者

文章题目：

AI Safety in a World of Vulnerable Machine Learning Systems

文章地址：

https://far.ai/post/2023-03-safety-vulnerable-world/

即使是最先进的现代机器学习系统也容易受到对抗性攻击（adversarial attack）。随着机器学习系统变得更加强大和通用，AI 安全社区经常假设对抗鲁棒性（adversarial robustness）问题会自然地解决。然而，最近的研究表明，在像AlphaZero这样狭窄领域的超级系统，和通用性高但专用性较低的系统（如大语言模型）中，对抗性攻击的风险非常高。这引发了一种可能性，即机器学习系统的对抗鲁棒性（最坏情况）将持续落后于机器学习系统的平均能力。换句话说，具有变革性的AI系统很可能会被利用。

Adversarial Policies Beat Superhuman Go AIs, https://goattack.far.ai/

可利用性（Exploitability）将导致当前各种对齐方法失效。大多数现有议程旨在通过辅助机器学习系统（helper ML systems）来协助对齐主系统（main ML system）。主系统是在世界中采取行动的首要系统（例如与用户交互），而辅助机器学习系统则充当支撑结构，用于训练或验证主系统。如果主系统利用辅助系统，这些对齐方案将失败——而且我们预计辅助系统容易受到利用（见后文）。

在表1中，我们提供了一个主观风险矩阵，表中展示了各种流行的对齐议程，并且评估了主要机器学习系统利用辅助系统的能力和动机的程度。我们发现许多对齐议程存在被利用的风险，所有议程至少存在一些风险。

表1：对流行的对齐议程的主观风险矩阵（见下一节），使用辅助系统来协助对齐主要机器学习系统，这些主系统是会最终部署的。

我们最关注辅助系统，因为这可能会影响主系统的对齐。相比之下，一个已对齐但易受对抗性利用的主系统不一定会构成危险，尤其是如果主系统可以递归地自我改进以修复自身。就算是超智能系统也可能无法达到对抗鲁棒性。这将是一个不稳定的情况，可能会陷入混乱（系统频繁相互利用），或者会进入隐含的均衡状态（例如：相互确保毁灭），或者会有明确的协议（例如：所有AI系统进行自我修改，并承诺不相互利用）。

我们认为有两种可能的方法来解决这个问题：提高对抗鲁棒性，或者开发容错（fault tolerant）对齐方法，这种方法即使在存在易受攻击的机器学习系统的情况下也能正常工作。我们对容错对齐最感兴趣，因为它受到了极大的忽视，且这种方法可能是可行的，尽管还需要进一步的工作来巩固。相比之下，对抗鲁棒性是一个在机器学习研究社区中受到重视的领域（被忽视程度低）[1]，但进展有限（可行性较低到中等）。

在本文的剩余部分，我们假设系统在默认情况下是可利用的，在这个条件去探讨不同情境下的对齐议程对系统的影响，并概述我们感兴趣的几个研究方向。

对齐议程需要鲁棒性

大多数对齐方案都隐含地依赖于一些对齐的辅助机器学习系统，这些辅助系统可以帮助我们训练或验证主系统，如原型AGI（proto-AGI）。在本节中，我们假设辅助系统是可利用的，并探讨这给对齐方案造成的问题。在下一节中将证明这个假设的合理性。如果主系统有动机利用辅助系统，那么辅助系统更容易被利用，例如辅助系统直接提供了主系统正在优化的训练信号，或者主系统已经具备了情境意识（situational awareness）。相反，如果优化过程追求的目标与辅助系统的输出基本是独立的，那么利用的可能性就较低，例如辅助系统是一个检测是否存在 mesa-optimization 的可解释性工具。在最好的情况下，我们甚至可以（像模拟迭代蒸馏和增强的情况一样， IDA，Iterated Distillation and Amplification）控制优化压力，去明确避免可能是对抗性的输入。

利用的可能性还取决于主系统的能力。这包括开发（机器学习系统）漏洞所需的计算资源，从仅仅是主系统网络的简单的前向传递，到主系统可以访问一个大型计算集群。它还取决于主系统对辅助系统的了解程度，从仅仅对可能的评估技术有一个高级别的了解（黑盒，black box），到可以查询辅助系统（灰盒，gray box），再到完全访问其权重和源代码（白盒，white box）。我们不能靠不可解释性来确保安全：许多零样本黑盒对抗性攻击都是由人类研究人员进行的，而超智能ML系统可能会更具创造力。然而，即使是超智能的ML系统也不是无所不能的，在实践中，"对手"可能是一个相对愚笨的优化过程，例如随机梯度下降（SGD）。

回顾表1，有一类对齐议程特别容易受到鲁棒性缺乏的影响，它们通常表现为辅助系统作为监督者向主系统提供反馈，例如在RLHF和大多数可扩展监督提案中。在这种情况下，利用辅助系统是主系统训练目标的一部分，这解释了奖励欺骗（rewardhacking）的普遍存在。

Defining and Characterizing Reward Hacking

https://arxiv.org/abs/2209.13085

The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models

https://arxiv.org/abs/2201.03544

在奖励模型在线训练时，来自人类监督者的纠正反馈（Corrective feedback）可能有助于减轻奖励欺骗问题，但主系统攻击辅助系统的速度可能远远超过人类提供纠正反馈的速度，因此存在着重大风险。或者，主系统可能简单地学会欺骗人类。可扩展的监督方法旨在防止欺骗人类，但无法防止对人类和可扩展监督模型都具有对抗性的情况。

模仿学习（Imitation learning）方法似乎风险较低，因为优化压力仅仅是匹配示范数据集的经验分布。在这种情况下，"奖励欺骗"最接近的情况可能是对数据集过拟合，这是相对温和的失败方式。仍然存在一些内部优化目标的风险，这可能对其他系统具有对抗性（例如试图隐藏自己以免受透明度工具监测），但相对而言，这是一种对抗性失败风险最低的方法之一。不幸的是，它的性能也只能达到人类水平左右。

模仿迭代蒸馏和增强（Imitative Iterated Distillation and Amplification，IDA）对可利用性的敏感性较低。IDA提议将模仿学习得到的模型放大到超越人类水平的性能。在我们的框架中，辅助系统是一个基于模仿学习的模型，我们认为它是安全和对齐的。主系统是通过IDA在辅助系统上产生的模型。在第一步中，辅助系统通过赋予其向自身的副本提问的能力来进行放大。关键是，辅助系统有动机避免可能导致失败的问题。从这个意义上说，IDA将优化压力从对抗性利用中转移，这与传统的强化学习（如纯强化学习）不同。

然而，辅助系统也可能由于对自身漏洞的内省性知识而具有高度的自我利用能力[2]。这可能导致训练方案中的一些不稳定性：如果问题树的某个子部分是对抗性的，其响应可能会传播并"感染"问题树的其余部分。这与安全增强（security amplification）问题有关。

https://ai-alignment.com/universality-and-security-amplification-551b314a3bab

其中一个较少令人担忧的情况是这些是仅用于评估而不是训练模型的工具，这些在对抗性测试或透明度方面经常出现。在这种情况下，主系统没有直接的动机欺骗辅助系统，因为它不提供训练信号。然而，在实际应用中，一些针对辅助系统的优化压力仍然会泄露出来，例如，如果辅助系统用于决定是否中止训练运行或更改超参数。这将导致类似于目前研究中在测试集上的过度拟合问题。

即使我们只将这些辅助方法作为对主系统的最后一次检查，但是如果主系统具有情境意识和长期目标，它可能仍会有动机欺骗这些评估方法。然而，这将是一个很难实现的利用，因为主系统可能只对辅助系统的设计有部分了解（例如，辅助系统将执行哪些测试），并且不能直接进行试错性的利用。此外，透明工具（transparency tools）通常应用于主系统的权重上，主系统最多只能（通过梯度欺骗，gradient hacking）间接地控制 [3]。不幸的是，评估方法本身并不是对齐的（最优）解决方案，但它们可以提供额外的保障，以避免部署恶意系统。

当前机器学习系统默认是可利用的

我们目前的最佳猜测是，解决有意义任务的所有当前机器学习系统都可以被中等资源的对抗者利用。自从Szegedy等人在2013年首次描述了图像分类器中的ℓp范数（ℓp-norm）对抗性示例以来，近十年来，尽管在对抗性防御方面进行了大量研究，但最先进的图像分类器仍然容易受到攻击。这些漏洞可以在现实世界的环境中通过物理对抗性攻击来利用，甚至很多模型对识别自然事物都有挑战性。此外，在包括语言模型、图分析、机器人策略和超级围棋程序在内的各种机器学习系统中也发现了类似的问题。

Intriguing properties of neural networks

https://arxiv.org/abs/1312.6199

据我们所知，解决有意义问题的ML系统从未经受住过饱和攻击[4]。对抗性防御可以分为已经被攻破的和尚未受到集中攻击的两类。这并不太令人惊讶：对于大多数软件系统而言，也可以这样说。

一个不同之处在于，随着时间的推移，软件安全性显著提高。虽然在大多数主要操作系统中几乎肯定存在远程根（root）漏洞，但要找到一个漏洞是非常困难的，大多数攻击者几乎无法达到这一目标。相比之下，利用机器学习系统通常非常容易。

图1：一种排版攻击使得对OpenAI Clip的无代码利用成为可能。更多例子参看：https://stanislavfort.com/blog/OpenAI_CLIP_stickers_and_adversarial_examples/

这并不是说我们没有取得进展。在对抗ℓp范数示例的防御方面已经进行了大量的工作，这使得攻击变得更加困难：需要更复杂的方法或更大的ℓp范数扰动。例如，一种最先进的方法DensePure在ImageNet上实现了77.8%的认证准确率，这个测试基于图像有最多0.5/255的ℓ2范数扰动。然而，这个准确率仍远远落后于对于干净（没有扰动）图像的最新方法，目前为91.0%的CoCa准确率。此外，DensePure的准确率在1.5/255的ℓ2范数扰动——对人类来说几乎无法察觉——中会下降至54.6%。这远远低于2012年AlexNet达到的62%准确率。

这就存在准确率和鲁棒性之间的权衡了。Tsipras等人（2019）在一个简单设置中从理论上证明了这种权衡。此外，还有大量的经验证据支持这一点。例如，DensePure在对抗性输入的认证准确性方面是2022年的最新方法，但在干净图像上只能达到84%的准确率。相比之下，非鲁棒的模型在4年前就实现了这个准确率，例如2018年的AmoebaNetA。因此，似乎存在着一个显著的"鲁棒性税"，类似于对齐税（alignment tax）[5]。

Robustness May Be at Odds with Accuracy

https://arxiv.org/abs/1805.12152

除了像DensePure这样的认证方法之外，还有各种防御方法可以在对抗性攻击中提供经验性保护，但无法得到确切的保证。然而，它们提供的保护效果最多只是部分的。例如，一种最先进的方法 DiffPure 在ImageNet上的干净图像上达到了74%的准确率，但在4/255的ℓ∞范数扰动下只有43%的准确率。这里也存在着显著的鲁棒性税：DiffPure 论文的表5显示，CelebA-HQ的干净图像准确率从99.43%下降到了94%。

Diffusion Models for Adversarial Purification

https://arxiv.org/pdf/2205.07460.pdf

更糟糕的是，真正的攻击者可能有更广泛的攻击方式，由Gilmers等人（2018）概述，例如旋转图像（rotating images）、扰动渲染图像中的物理参数（perturbing physical parameters in rendered images）、从现实世界数据集中对抗性地选择图像（adversarially selecting images from a real-world dataset）、对抗性贴片（adversarial patches）、单像素攻击（ single-pixel attacks）和潜在的对抗性扰动（latent adversarial perturbations）。我们希望在所有这些攻击下都能具备鲁棒性，但似乎在不同攻击之间存在根本的权衡，Tramer等人（2019）展示了不同类型的ℓp有界和空间扰动之间的这种权衡。此外，目前还没有有效的方法来防御在设置之外的无限制对抗性示例。

Motivating the Rules of the Game for Adversarial Example Research

https://arxiv.org/abs/1807.06732

Adversarial Training and Robustness for Multiple Perturbations

https://proceedings.neurips.cc/paper/2019/hash/5d4ae76f053f8f2516ad12961ef7fe97-Abstract.html

尽管当前ML系统中广泛存在对抗性示例令人担忧，但还有一丝希望。也许这些对抗性示例只是机器学习系统能力不足的产物？一旦系统达到或超过人类水平的表现，我们可能希望它已学习到一组至少与人类一样好的表示，并且对对抗性攻击的脆弱性不会超过我们。不幸的是，最近的研究对此提出了质疑。在Wang等人（2022）的论文中，我们发现了能够击败超级围棋程序KataGo的对抗策略。我们的对抗策略使用的计算资源不到 KataGo 使用的14％，但在与超级版本的 KataGo 对战中，我们获胜的次数达到了97％。这不仅仅适用于KataGo：我们的攻击方法也适用于ELF OpenGo 和 Leela Zero，并且在 DeepMind 的Timbers等人（2022）的同时工作中，他们能够利用一款内部复制的AlphaZero版本。

Adversarial Policies Beat Superhuman Go AIs

https://goattack.far.ai/

Approximate exploitability: Learning a best response in large games

https://arxiv.org/abs/2004.09677

当然，围棋中的结果可能不适用于其他，但我们选择研究围棋是因为预计这些系统很难被利用。特别是，由于围棋是一种零和游戏，对抗鲁棒性是关键的设计目标，而不仅仅是众多期望之一。此外，KataGo和AlphaZero使用了蒙特卡洛树搜索结合神经网络评估。一般而言，我们预计搜索（在极限情况下是最优的）比单独的神经网络更难被利用，尽管搜索确实使系统更难被攻击，但我们能够攻击它，甚至达到了1000万次访问——远远超过超级水平所需的阈值，并且远高于大多数游戏中使用的水平。

仍然有可能，尽管狭义超人类系统（narrowly superhuman systems）容易受到攻击，但更通用的系统可能是具备鲁棒性的。大型语言模型是我们今天最通用的系统，但Ziegler等人（2022）的研究发现，即使经过大量的对抗性训练，它们仍然容易受到攻击。此外，准确性和鲁棒性之间明显存在的权衡且表明：在任何特定时期中最强大的人工智能系统可能特别容易受到攻击（Tsipras等人2019；Tramer等人2019）。

https://www.lesswrong.com/posts/n3LAgnHg6ashQK3fF/takeaways-from-our-robust-injury-classifier-project-redwood

Robustness May Be at Odds with Accuracy

https://arxiv.org/abs/1805.12152

Adversarial Training and Robustness for Multiple Perturbations

https://proceedings.neurips.cc/paper/2019/hash/5d4ae76f053f8f2516ad12961ef7fe97-Abstract.html

当然，某个时刻可能会开发出对抗性鲁棒的系统。这可能通过在能力和通用性上"过度发展"，然后付出鲁棒性的代价来获得适当能力或通用性但具备一定鲁棒性的系统。或者，可能会开发出新的技术来减少或消除鲁棒性的代价。最乐观的情况是，通用的、达到人类水平的系统可能天生具备鲁棒性，即使单独的通用性或人类水平的鲁棒性是不足够的。在下一节中，我们将考虑对抗性鲁棒系统何时可能被开发出来以及这对安全性的影响。

鲁棒性的未来发展轨迹

我们将考虑三种可能的情况：

在开发变革性人工智能之前解决对抗鲁棒性；

在开发变革性人工智能之后解决对抗鲁棒性；

永远无法解决对抗鲁棒性。

尽管这种划分较为粗略，但我们认为它捕捉到了最重要的区别。

在本节中，我们所说的对抗鲁棒性的解决是指：系统无法被实际利用以造成灾难性后果。这是一个相对较低的标准。特别是，这个定义容忍有界的错误。例如，我们可以容忍有威胁行为者能够永久地欺骗AI系统，在交易中获取比他们应得的资源多10%。我们也可以容忍有威胁行为者能够暂时转移甚至大部分AI的资源，只要这不会导致永久性的负面影响，并且攻击者不会最终用尽这种利用方式。我们将在下面总结对每种情况的主观看法，并在接下来的部分对这些情况进行定性探讨。

对抗鲁棒性解决时间 我们主观的概率
在变革性AI出现之前 20%
在变革性AI出现之后 45%
永远不会被解决 35%

表 2: 三种情况下的主观可能性

情况1：在开发变革性人工智能之前解决对抗性鲁棒性

可能性

这种情况有两个主要的希望来源。首先，总是存在一种算法性的突破，可以显著提高鲁棒性。虽然我们预计这方面容易的方法已经没有了，但突破是难以预测的，因此我们不应排除近期取得突破的可能性。其次，对抗性鲁棒性可能会与能力的不断逐步提升相辅相成。

我们在上面论述过，模型能力并不保证鲁棒性，并且能力与鲁棒性之间存在权衡。然而，能力通常会提高鲁棒性。例如，预训练可以提高图像分类器的对抗鲁棒性。

当前机器学习系统容易受到攻击的主要原因之一是它们的无能。即使像 KataGo 这样的超人类系统在需要仔细计数的位置评估上也存在困难。因此，机器学习系统容易受到攻击并不奇怪，更令人惊讶的是尽管它们经常存在明显缺陷，它们仍能在许多竞技游戏中击败人类，并在各种任务上达到人类水平的准确性。

换句话说，或许我们可以从对抗鲁棒性的普遍存在中得出结论，当前机器学习系统只是提供了智能的外貌。从这个视角来看，具有变革性的人工智能可能仍然需要几十年的时间才能实现。一旦开发出具有变革性的人工智能系统，而且这些系统真正具备智能，许多这些问题自然会消失。

这种可能性在表面上似乎是合理的，但我们对此深感不确定。也许人类也存在对抗性示例，只是由于人类实验的昂贵成本和人脑（当前）的黑盒性质很难找到。我们预计那些认为变革性人工智能时间线更长的人，会更容易被这个论点所说服。对于那些认为时间线较短的人来说，考虑到过去十年的有限进展，似乎不太可能在未来十年内解决对抗鲁棒性。

意义

从许多方面来看，这是最理想的情况。在最乐观的情况下，我们可以通过某种突发的洞察力在未来几年内解决对抗鲁棒性，而在开发具有变革性人工智能之前。我们应该尽力实现这一目标，尽管我们目前并不知道有很多被忽视但可行的研究方向可以实现这一目标。

如果对抗鲁棒性只逐步解决，或者仅在变革性人工智能之前解决，情况就会更具挑战性。在这种情况下，我们可能会遇到以下部分讨论的许多问题。然而，这些问题主要会在仍然可靠的人类反馈和不需要大规模监督的环境中出现。这使得我们有机会通过手动检查来发现利用行为。然而，然而，如果攻击很隐蔽或者很少进行，这可能仍然具有挑战性：例如，在一个大型网络中很容易忽略主系统隐藏一个电路的行为。因此，加快对抗鲁棒性的实现仍然有益，但可能并非成功所必需。

情况2：在开发变革性人工智能之后解决对抗性鲁棒性

可能性

对抗性机器学习研究界已经花费了近十年的时间尝试解决对抗性鲁棒性问题，但取得的进展有限。我们已经看到，即使是经过对抗训练的超人类系统（如KataGo）和通用但弱于人类的系统（如语言模型）也是可攻击的。不排除问题可能会在默认情况下被解决的可能性：也许具有稍微更多泛化性的几乎超人类系统，将开始自然地学习更强大且更符合人类特征的表示。但在缺乏对鲁棒性的新算法洞察的情况下，这个问题似乎可能会持续存在，即使在变革性人工智能系统中也是如此。

然而，当前机器学习研究界经过十年的研究努力，与变革性人工智能所能投入的资源相比仍然微不足道。首先，随着盈利（但易受攻击）的人工智能系统的部署，解决这个问题的经济激励将会增强。其次，更先进的人工智能系统可能会部分自动化机器学习研发，从而降低对抗鲁棒性的研发成本。因此，变革性人工智能的发展本身可能会导致对抗鲁棒性问题的解决。

经济和政治激励

目前，人们并没有因为人工智能的漏洞而损失大笔资金。然而，一旦发展出变革性人工智能，全球GDP的很大一部分将依赖于（易受攻击的）人工智能系统。在这一点上，改善对抗鲁棒性问题可能会吸引与当今所有信息安全支出相当，甚至超过一个国家国防预算的资源。这将是目前用于对抗性机器学习研究的资金投入的数量级。

降低研发成本

降低研发成本。实现变革性人工智能的更有可能路径之一，涉及能够自动化科学研发的系统。这很可能会降低人工智能研究的成本，使更多（并且可能是更高质量的）对抗性鲁棒性研究成为可能。

攻守平衡

发展变革性人工智能肯定会有助于提高对抗鲁棒性：但它也会推动攻击者能力的进步。攻击者将有更大的经济动机来利用广泛部署的人工智能系统，并能够利用自动化的研发系统改进他们的攻击。然而，变革性人工智能可能会导致一个有利于防御者的阶段性转变。特别是，如果存在对抗性鲁棒性的技术解决方案，尽管很难找到，但一旦发现就变得极其困难或无法被攻击利用，那么防御者更有可能取胜。

密码学的历史走过了类似的道路：最初的方法经常被破解，但最新的方法在长期的密码分析中经受住了考验。早期的密码术可以追溯到数千年前，但数学方法直到20世纪才开始广泛应用。几十年来，没有一个密码术能够经受住重大的密码分析。在第二次世界大战中，同盟国和德国都能够破解对方的许多密码。之后不久，更现代的密码学方法出现了，但早期的尝试仍然存在问题。1975年引入的数据加密标准（DES）于1999年被破解，主要是由于其较小的密钥长度。2001年采用的高级加密标准（AES）自那时以来一直受到广泛的审查，目前仍被认为在实际上是安全的。因此，尽管几十年来，密码学家和密码分析专家的实力相当，但最终密码学的进步使得攻击与防御之间的平衡向防御者倾斜。

影响

在这种情境中，好消息是足够先进的人工智能系统将不容易被利用。坏消息是变革性人工智能系统的前身仍然容易受到攻击。这带来了两个问题。首先，我们必须在其脆弱期内保护原型变革性（proto-transformative）人工智能系统，类似于它们的"童年"。其次，我们必须保护用来帮助对齐变革性人工智能系统的辅助人工智能系统，不被变革人工智能系统本身利用。

保护原型变革性人工智能系统免受外部恶意行为似乎具有挑战性，但是可以找到解决办法。一个极端的选择是简单地在一个空隔离网络数据集上训练人工智能系统，但人工智能系统可能需要与广泛世界进行互动学习，所以这可能会带来一些实际挑战。较为温和的选择是在一个仅限用户的沙盒环境中训练人工智能系统。

辅助人工智能系统的对齐问题更加棘手，因此是这个议程的核心关注点。这里的威胁是内部的，而不是外部的。隔离无法解决问题，因为辅助人工智能系统需要能够与变革人工智能进行互动，以便检查它并塑造其训练过程。然而，限制信息流动（特别是变革人工智能对辅助人工智能的了解）可能有所帮助。

让我们深入考虑一个例子，其中辅助人工智能是一个监督者，为主系统提供训练信号。监督者充当人类评判者的角色。在最简单的情况下，它可能是一个基于人类反馈训练的奖励模型，能够比人类更快、更便宜地评判情况。在更复杂的情况下，它可能通过一系列可扩展的监督方法进行训练（例如递归奖励建模或通过辩论实现人工智能安全性）。

假设我们正在训练将成为第一个变革人工智能系统的系统。最初，主系统和监督者都不是变革人工智能系统，因此根据这种情况的假设，它们都容易受到攻击。关键是，由于主系统的训练目标是优化监督者的输出，两者之间存在着内在的对抗关系。

即使主系统最初可能不够复杂，来自当前机器学习的证据表明它不会有任何问题来利用监督者。许多生成对抗性示例的算法非常简单：比它们所利用的网络要简单得多[6]。在我们对KataGo的攻击中，一个随机初始化的对手在训练时间只有受攻击的主体程序的0.3%（对于未加强的KataGo）和6%（对于加强的KataGo）时就取得了决定性的胜利。

监督者的一个主要优势是它通常是在线训练的。如果主系统开始利用监督者，监督者有机会进行自我纠正。只要人们不被利用所迷惑，并及时提供纠正性反馈，这似乎相对容易实现。然而，监督者仍然可能受到攻击。例如，在语言模型中进行奖励建模的工作通常涉及在线或迭代的离线训练，然而这些奖励模型仍然会错误地给无意义的文本分配过高的输出值，因此在训练过程中需要KL正则化（KL regularization）。

此外，人类并非完全无瑕疵：我们已经看到了训练过程学会欺骗人类的例子，比如看起来似乎但实际上并没有抓住一个实体。事实上，人类反馈的有限性是可扩展监督方法的主要动力。如果人类训练者可以被主系统利用，那么我们必须依靠监督过程本身能够检测和抵御攻击。

值得注意的是，AlphaZero风格的训练和迭代蒸馏与放大之间存在类比。AlphaZero使用蒙特卡洛树搜索（Monte-Carlo Tree Search，MCTS）作为策略改进运算符，通过搜索放大网络。然后，AlphaZero风格的训练将放大后的网络蒸馏回原始网络。

我们可能希望MCTS的"放大"步骤能够使网络更加鲁棒。根据经验，结果是参差不齐的。在我们对KataGo的攻击中，我们的第一个"基于传递的对手"，即使只搜索32个节点，也能以99%的胜率击败KataGo。然而，我们最新的"循环对手"即使只搜索1000万个节点，也能在76%的游戏中击败KataGo。相比之下，KataGo搜索2048个节点已经具有强大的超人水平。MCTS对KataGo有所帮助，但最终无法使其免受对抗性攻击。

尽管搜索可以提高鲁棒性，但当底层网络存在根（root）的漏洞时，即使在实际可达到的搜索水平下，它可能仍然无法提供足够的保护。当然，放大方法可能比蒙特卡洛树搜索（MCTS）更复杂。然而，它们也需要在比围棋更复杂的环境中运作，包括更大的分支因子和更长的时间跨度。

可利用的监督者是最自然且令人担忧的情景，但这个问题的变体也会出现在其他类型的辅助主体（helper agents）中。例如，也许你更关注内部对齐而不是外部对齐，并且设想一个辅助主体进行对抗性测试或机械识别，以检测主系统中的内部不对齐。在这种情况下，主系统会有动机欺骗辅助主体，使其错误地宣称主系统内部对齐。

风险的变化取决于辅助系统的使用方式。如果仅在训练结束时部署为检查工具，则主系统的激励是间接的，因为它不会为此接收训练信号。然而，如果 mesa-optimizer 具有情境意识，那么它很可能会强烈怀疑自己会受到其他AI系统一定程度的自动检查。即使对这些检查的确切性质不明，这也不能阻止它发现漏洞，因为对抗性示例具有相当好的迁移性。例如，我们对KataGo的攻击在零样本情况下迁移相当好：我们对Leela Zero和ELF OpenGo取得了大约3%的胜率，虽然低于人类专业棋手，但依然较好。

实际上，实验室不太可能因为主系统未能通过单一检查而放弃可能是非常昂贵的AI系统。相反，他们可能希望调整其训练过程，并再次尝试。在这种迭代的情况下，风险显著增加，因为主系统现在有多次机会找到对抗性示例。例如，我们团队中的一个围棋选手在经过几场试错游戏后就能够调整对抗策略，经常击败Leela Zero。AI系统也可能以类似的方式进行适应。

风险最高的情况是主系统接收到激励信号，鼓励其欺骗辅助主体。例如，对抗性测试的反面是对抗性训练：将主系统与生成对抗性示例的辅助主体进行对抗。Papernot等人在2017年的研究中发现，针对具有小扰动的示例的对抗性训练会产生网络，表现出梯度掩盖。它们在输入的一个小区域内具有鲁棒性，击败了典型的对抗性攻击方法，但仍然对从另一个模型传递的对抗性示例非常脆弱。换句话说，对抗性训练可能导致主系统在辅助主体面前看起来很好，但实际上并没有更加对齐（在这种情况下，也没有更加鲁棒）。

Practical Black-Box Attacks against Machine Learning

https://arxiv.org/pdf/1602.02697.pdf

同样地，人们可能希望在人机协同训练中使用机械解释能力，以生成学习类似于人类表示的模型。这里存在一个潜在的故障模式，即模型实际上学习到的表示在解释能力方法中看起来类似于人类，但模型的实际输出在很大程度上由一些未被检测到的隐写编码决定。

尽管存在这些风险，但对于诸如解释能力方法之类的辅助主体，我们仍有一些乐观的理由。即使主系统有欺骗辅助主体的动机，它至少无法直接控制其权重。然而，只要主系统对其训练的数据分布有一定的控制权（在强化学习中常见），它通常可以间接地影响其权重（参见梯度欺骗）。此外，当辅助主体提供训练信号时，生成主系统的优化过程将"尝试"利用主系统，即使主系统主体本身并没有这样的意图。探索对解释能力工具等辅助主体进行攻击的可行性可能是未来工作的一个有趣方向。

情况3：对抗鲁棒性永远无法解决

可能性

在这种情况下，任意强大的系统仍然容易受到攻击。这一观点似乎初看起来是合理的，因为机器学习的改进往往会同时提高防御和攻击方法。因此，尽管2040年的机器学习系统容易受到2020年的攻击会让人惊讶，但它们却非常有可能受到在此期间开发的新型更复杂的攻击。一个固定的攻防平衡似乎是一种自然的外部观点。

此外，人类水平的智能明显不足以保持鲁棒性。人类本身有时会受到其他人的极端操纵。例如，一些邪教成员失去了他们的财产、自由，甚至有时失去了生命。这是人类在部分对抗性环境中进化的结果，并且对于检测社会操纵有着很好的敏感性。

然而，在足够极端的情况下，我们可以使系统完全具备鲁棒性。例如，最小最大算法在理论上是最优的，但在大多数游戏中计算成本太高，无法使用。然而，在井字棋等游戏中确实可以创建一个无法被利用的智能体，机器学习界能够开发出在像扑克这样具有挑战性的游戏中具有有限可利用性的智能体，这虽然颇具挑战，但我们不会觉得惊讶。

在更开放的环境中实现有限可利用性似乎更具挑战性。然而，仅仅检测并学习在线防御可能已经足够。尽管这并非万能之策（在线学习使得攻击者可以对系统的训练数据施加影响，潜在地使其面临数据污染攻击的风险），但这似乎是一个较为容易的问题，并且是一个相对未被充分探索的威胁模型（threat model）。

影响

这种情况对于安全性来说似乎是最具挑战性的。在情况2中讨论的所有挑战仍然适用，特别是主系统很可能会利用我们用来对齐它的辅助主体。然而，为了探索不同的威胁模型，假设我们已经以某种方式创造出一个与我们的最佳利益高度一致且真正具有良好意图的AI系统。不幸的是，如果AI系统可以被欺骗以执行违背我们利益的行为，那么光有良好意图的AI系统是不足够的。

具体而言，一个有高度能力的AI系统很可能是像国家这样的资源充足的人类威胁行为者的诱人目标。这些威胁行为者可能有自己的人工智能系统来帮助自动化攻击。或者，也许一个不对齐的人工智能系统已经被部署，现在它本身就是一个威胁行为者。

在没有能力实现技术保护的情况下，行为者很可能寻求其他的自我防御方式。例如，类似于当今信息安全中的相互保证毁灭（MAD，mutually assured destruction）平衡可能会出现。即使是相对业余的勒索软件攻击也可能造成严重的破坏；有能力的国家可能会发动更加复杂的攻击。但如果被发现是他们造成的，被针对的国家可能会以自己的网络战或其他软实力手段作出回应，甚至可能使用传统军事力量。因此，我们可能预期威胁行为者将自己主要限制在间谍活动上，这样不太引人注目，因而不太可能引发回应，或者进行针对性的攻击，追求像Stuxnet那样的狭义目标。

不幸的是，相互保证毁灭（MAD）的平衡是不稳定的，存在实际互相毁灭的风险。在信息安全领域尤其危险，因为溯源极其困难，而进入门槛又很低。相比之下，在核政策中，可能的威胁行为者数量少且定义明确（即拥有核武器的其他国家），通常可以通过检测导弹发射地点来进行溯源。

由于大多数AI系统及其负责人在冲突中都会遭受损失，因此AI系统有动力达成协议以防止这种可能性。这类似于军备控制协议。理论上，AI系统可能能够改进这一点，通过自我修改以证明其无法攻击已加入该协议的其他AI系统，尽管验证它们是否真正自我修改可能会很困难。合作型AI议程的研究可能有助于解决这个问题，但可能并非必要，因为足够有能力的AI系统可能能够自行研究合作型AI。

另一种可能的平衡是某个AI系统取得足够决定性的领先优势，能够抵御现有能力较弱的威胁行为者。这种权力的集中会带来自身的风险，但可能是AI系统之间持续冲突的可取替代方案。如果能够预见到冲突的风险，甚至可能会有具备生产先进AI系统能力的不同行为者同意联合起来，制造一个单一的AI系统，尽管该系统仍然会努力平衡创造它的群体的愿望。这样的事件将是前所未有的，但并非没有先例可循：巴鲁克计划曾提议将核技术的永久垄断权交给联合国，甚至能够对常任安全理事会成员实施制裁。

如果既没有达到相互保证毁灭（MAD）也没有实现单极均衡，那么前景看起来不太乐观。一般来说，冲突往往具有高度破坏性和负和游戏的特点。然而，AI系统之间的冲突可能更接近于零和财富转移，因此对价值的破坏可能比传统军事行动要小，这可能导致较低于预期的成本。

未来研究方向

有三个颇有前景的未来研究方向：

更好地理解问题，例如调查通用对抗失败模式的程度，并找到鲁棒性的扩展规律；

开发针对对抗鲁棒性的算法改进，如新的训练程序或数据增强技术；

开发容错对齐技术，即使存在容易受攻击的机器学习系统也能正常运作。

理解问题

虽然对抗鲁棒性是一个研究较多的领域，但在与对齐最相关的情景下（即在现实威胁模型下有高度能力的通用系统），关注此方面的工作相对较少。因此，我们有机会更好地理解问题的本质，无论是进行原始研究还是整理已有文献中的相关结果。

一个有前景的方向是开发鲁棒性的标度律（scaling laws）。在一些领域，比如语言模型、生成图像和视频建模以及零和棋盘游戏中，已经建立了能力度量的标度律。确定对抗鲁棒性的类似标度律将会提供丰富的信息。

如果鲁棒性的标度律曲线比能力的标度律平缓，我们预计随着时间推移，能力与鲁棒性之间的差距会扩大，这是令人担忧的结果。相比之下，如果鲁棒性的标度律与能力的标度律相当，那么差距可能会在一段时间内保持不变，这意味着攻防平衡将保持不变。最后，如果鲁棒性的标度律比能力的标度律陡峭，我们可能预计未来会有实质性的进展来弥合这一差距。

对标度律的探索可以利用已经在其他地方开发的数据。例如，已经存在ImageNet和其他基准测试中图像分类器的最先进准确率的时间序列数据。还存在一些相应的鲁棒准确率（robust accuracy）的时间序列数据，如RobustBench。比较这些数据可以初步判断对抗准确率的进展是落后于清洁准确率（clean accuracy）的进展，保持同步，还是超越了清洁准确率的进展。

已有一些研究探讨了模型的鲁棒性如何随着模型大小和数据集大小的变化而变化。例如，Xie等人（2020年；图7）发现增加ResNet的深度会提高鲁棒准确率，但对清洁准确率的影响有限。Carmon等人（2022年；图13和14）发现增加标记或未标记数据集的大小可以提高鲁棒准确率，尤其是图13(a)表明相比于清洁准确率，鲁棒准确率更受未标记数据增加的好处。然而，据我们所知，目前还没有针对鲁棒性的定量标度律。

现有的大部分对抗鲁棒性工作都集中在图像分类上，这对于变革性人工智能来说是很差的代理，而且只考虑ℓp范数扰动，这是一种有限的威胁模型。因此，我们对进一步探索在现实威胁模型下，狭义超人类系统的漏洞特别感兴趣。我们期待这样的研究对于AI安全领域的信息价值特别大。

我们对研究除围棋以外的超人类游戏系统中的对抗策略特别感兴趣。例如，Leela Chess Zero是一个模仿AlphaZero的国际象棋系统，我们想知道其中是否存在漏洞。这将为对抗策略是一个普遍现象（至少对于AlphaZero风格的系统而言）提供强有力的证据。我们预计国际象棋系统比围棋程序更具挑战性，因为即使是带有硬编码启发式规则的搜索也足以实现超人类水平的表现。我们还有兴趣尝试在更广泛的游戏中寻找对抗策略，如Polygames，以了解可利用性如何随着游戏复杂度等因素变化。

另外，研究使用不同算法训练的系统也很有趣，以排除漏洞是AlphaZero风格训练（如自我对弈）的结果可能性。例如，DeepNash是一种比自我对弈更有原则性的方法，已经学会以人类专家水平玩斯特拉戈（Stratego）。除了棋盘游戏，AlphaStar在星际争霸中取得了专家级别的表现，并使用了基于群体的算法进行训练。不幸的是，目前没有这些结果的开源复制，这使得在实践中研究这些智能体具有一定挑战性。

我们还可以努力更好地理解现有的对抗性攻击。已经有大量的工作在发展理论来解释为什么对抗性攻击持续存在，比如《对抗性示例不是错误，它们是特征》（Adversarial Examples Are Not Bugs, They Are Features）和《对抗球体》（Adversarial Spheres）。但是还存在一些明显的空白。例如，在对抗性攻击中应用机械解释性方法来理解模型失败的工作相对较少。这对于对抗鲁棒性有启发作用，同时也是解释性的一个有用的测试案例。

算法改进以提高对抗鲁棒性

理解问题的本质固然重要，但在某一点上，我们必须采取行动来解决它。最直接的方法是开发改进对抗性鲁棒性的算法或训练过程。已有的工作在这一类别中包括对抗性防御（如认证防御和对抗性训练）、更有原则性的训练过程（如使用策略空间响应预测而不是自我对弈）以及试错改进，例如发现预训练可以提高鲁棒性。

这个领域的先前工作确实改善了对抗鲁棒性的状态，我们希望这种改进能够持续下去。然而，这是一个相对拥挤且可行性不确定的领域，因此我们建议在选择在这个领域工作的项目时要慎重。尚未充分探索的方向包括：在现实威胁模型下的对抗鲁棒性，如无限制的对抗性示例；针对看似是变革性人工智能的良好代理的系统（如大规模语言模型或超人类游戏系统）的对抗性鲁棒性；以及通过对抗性训练实现有限的保证（如避免灾难性结果）。

容错对齐

除了增强系统的鲁棒性外，另一种方法是使我们的对齐方法对机器学习系统的漏洞更具容忍性。用计算机安全的类比来说，提高对抗鲁棒性就像修复程序中的安全漏洞，而容错对齐就像通过限制程序权限来限制漏洞可能造成的损害。当然，它们并不是互斥的：即使我们积极应用最小特权原则，仍然需要一些核心、可信赖的组件。然而，这将问题从保护一个庞大复杂系统简化为确保小型核心组件的可信度。

具体而言，我们应该尽可能地将主系统和其辅助系统彼此隔离。例如，如果辅助系统不需要生成训练信号（例如解释性或对抗性测试工具），那么主系统就不应该能够查询辅助系统。主系统和辅助系统之间的任何交互应该在一个沙盒环境中进行，且结果不用于训练主系统。

我们还可以采取一种深度防御的方法，通过包含多种不同类型的独立辅助系统。这样，我们可以容忍一些辅助系统被利用，只要至少有一个没有被利用，并提供危险的警示信号。这仍然是一个不简单的问题：对抗性示例通常是可迁移的，主系统可能会明确地混合针对不同模型的对抗性示例，因此我们不能简单地信任集合模型的输出。但是，测试越独立（例如使用不同的方法，如对抗性测试和机械解释性），恶意的AI系统就越难以欺骗它们。

当辅助系统需要为主系统生成训练信号（例如IDA或RRM）时，只能进行有限的隔离。在这种情况下，我们应该努力避免对抗性压力。这种策略在我们解决转型性人工智能之后的世界特别有吸引力。在那种情况下，对抗性压力主要来自系统内部，因此原则上我们可能能够避免它。

我们确定的一个主要问题是优化过程对监督者进行对抗性利用。幸运的是，模仿学习目标似乎对这种奖励操纵行为更不容易受到攻击[8]。不过，模仿学习的缺点是它有效地将性能限制在示范水平上。然而，如果我们恢复了人类策略，我们可以将其作为起点，选择施加多少额外的优化压力。这就是为什么RLHF有效，其通过在基础（模仿学习得到的）语言模型上施加KL惩罚进行强化学习。

然而，KL惩罚的强化学习并不是唯一的方法。例如，量化器提议从模仿学习目标中采样N次，并选择其中最好的结果。Gao等人（2022）最近的研究结果表明，这种方案产生的性能与强化学习相当，并且在KL效率上更好（找到更接近基础模型的策略），尽管对于较大的N而言，计算上不可行。未来工作的一个自然方向是使其在计算上更加高效，例如使用监督学习将最佳的N次搜索蒸馏到一个模型中。更一般地说，我们可以探索优化方案的设计空间，试图找到一种方式，将优化压力更多地集中在提高性能上，而不是利用模型。

我们还可以试图改变主系统和辅助AI系统之间的博弈，以使辅助系统处于优势地位。例如，默认情况下，监督者AI系统会实时向主系统提供训练信号。为了使这个方案生效，监督者需要具有鲁棒的零样本能力，这是一个具有挑战性的目标。然而，我们可以修改这个博弈规则，将主系统定期重置到较早的检查点，然后继续使用当前的监督者对主系统进行训练。在这种方案下，监督者只需要不被同一个攻击反复欺骗即可。此外，我们可以利用这个方案来检测潜在的攻击，通过观察基于较晚监督者训练的主系统与基于较早监督者训练的主系统之间的差异。

限制

先前的研究结果并不明确

当前机器学习系统中对抗性示例的普遍存在表明，对抗鲁棒性是一个棘手的问题。然而，对抗性示例的大部分研究都集中在与我们关心的对齐问题非常不同的情境中。其中一些差异使得问题更难解决：无限制的对抗性示例是一个更现实的威胁模型，但比起更广泛研究的ℓp范数扰动更难以防御。

然而，许多差异使得问题变得更容易。例如，在低风险情况下容忍对抗性示例，足以保证模型永远不会犯任何灾难性的错误。举个例子，假设一个自动驾驶车辆的奖励模型为：到达目的地奖励+1，如果看到一系列经过对抗性放置的贴纸在路标上，循环绕着街区奖励+3，碰撞惩罚-10。尽管模型产生的结果对于现在的攻击者确实有缺陷的，但是最坏的情况只是暂时的，并且也不会有生命危险。在更开放的领域中，可修正性是一个高风险的结果，而AI做出的大多数微观决策相对来说风险较低。

也许最重要的差异是，大多数关于对抗性示例的先前研究都集中在当前的AI系统上，而对于对齐问题，我们主要关心更先进的未来AI系统。有可能随着能力的提升，对抗鲁棒性问题会自动解决。这是一个重要的限制条件，但在情况3中已经讨论过了，所以我们在这里不再重复这个论点。

无能力的对抗示例

对于上述论点的一种变体是，系统不会仅仅因为无能力而展现出巨大的威胁，因此我们应该最担心那些能力强大且努力实现不对齐目标的系统。然而，正如之前提到的，迄今为止，大多数对抗性示例更像是无能力：系统对世界的某些基本认识存在误解。也许我们应该对此感到鼓舞，因为这表明当前的AI系统远未构成威胁。

我们同意这种基本直觉。其他条件相同的情况下，对抗性示例的普遍存在倾向于支持更长时间线的变革性AI。然而，由于对抗性示例已经存在了十多年，我们预计这些信息在人们的估计中已经被广泛考虑进去了。

此外，我们不应该期望AI系统因为被对抗性利用而造成灾难性的伤害。相反，我们的主要关注是对齐的辅助ML系统会被主系统利用，导致主系统不对齐。其次我们关注的是，即使主系统对齐，如果它是可利用的，它可能无法约束恶意行为者（如其他不对齐的AI）。在这两种情况下，风险并不来自被利用的AI系统，而是来自不对齐的高能力AI系统。

我们已经知道这一点

这篇文章中列举的许多具体问题，比如奖励欺骗或甚至利用可解释性工具，已经被广泛讨论过了。因此，在某种意义上，这篇文章并没有提出任何新的观点：如果你已经熟悉这些先前的风险，那么阅读完这篇文章后也没有什么理由对它们感到更加担忧。相反，我们认为我们的主要贡献在于提供一个框架，将看似不相关的安全问题整合到一个共同的框架下，并可能找到一个共同的解决方案。

我们认为许多对抗性鲁棒性问题的棘手性应该让人们在尝试解决其中一个特殊情况。例如，我们预计解决奖励欺骗问题，甚至是一个鲁棒的伤害分类器的解决方案，可以转化为解决许多其他对抗性鲁棒性问题的解决方案。因此，我们应该预期这些问题在解决上极具挑战性，因为许多研究人员已经尝试过但未能解决对抗性鲁棒性问题。

提高鲁棒性不会提高能力吗？

我们认为我们强调的方向以有限的外部能力差异化地推进安全性。然而，在实践中，获得更鲁棒模型最简单的方法之一可能就是提高它们的整体能力。因此，我们建议安全社区在对抗性鲁棒性问题上传递一个细致入微的信息，强调缩小平均情况和最坏情况性能之间的差距，而不仅仅是追求提高最坏情况性能。特别是，人们似乎普遍错误地将"对齐"和"通过人类反馈进行训练"等同起来；如果类似的错误等价性也出现在"安全"和"对抗鲁棒性"之间，那将是不幸的。

结论

我们提出观点表明，即使是当前最先进的机器学习系统也容易受到对抗性攻击，而且即将出现的（或接近）具有变革性的AI系统也很可能同样容易受到攻击。我们探讨了这对齐问题的影响，并发现一些常见的对齐提议在这种情况下可能会失败。最后，我们概述了研究议程，以更好地理解和解决这个问题，既通过提高鲁棒性，又通过调整对齐技术以更好地容忍对抗性漏洞。

注释

Adversarial robustness has received comparatively little attention from the x-risk focused community, so there may still be some areas that are important for x-risk but neglected by the broader ML research community, such as unrestricted adversarial examples.

This doesn’t guarantee the helper can exploit itself: recognizing an exploit (so defending against it) could be easier than generation. However, the helper seems well-placed to exploit itself relative to other ML systems of comparable capabilities.

Although future ML systems could have more control over their weights. For example, hypernetworks directly generate the weights of another network. In a less extreme case, neural-architecture search with a training objective based on some automatic interpretability metric could exert selection pressure towards "deceptively interpretable" architectures.

The best adversarial defenses can largely prevent imperceptible attacks, but are still easily defeated by perceptible perturbations that would not confuse humans.

Some recent work (e.g. Cheng et al (2020) and Altinisik et al (2022)) has had some success increasing clean accuracy of adversarially trained models by adaptively perturbing the examples, thereby reducing the robustness tax for adversarial training.

Section III of Carlini & Wagner (2016) provide a good summary of methods, most of which are relatively simple optimization problems, although they do require access to gradients through the networks.

Table 29 of the supplementary materials of Stiennon et al (2020).

Some modest gains are possible from denoising demonstrations, and sufficiently capable systems might generalize a bit past the human distribution.

作者简介

Adam Gleave 是非盈利研究机构 FAR AI 的联合创始人和 CEO，FAR AI 团队主要关注的研究方向有：对抗鲁棒性、价值对齐和大模型评测等。Adam Gleave 在 UC Berkeley的人类兼容人工智能中心（Center for Human-Compatible AI）完成 AI 博士学位，他的导师是著名的 AI 研究者 Stuart Russell。研究兴趣：大模型价值对齐、模型评测、对抗鲁棒性和AGI安全领域建设。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨AI安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：

2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线

宙世代

智慧云

相关标签

对抗鲁棒性解决时间	我们主观的概率
在变革性AI出现之前	20%
在变革性AI出现之后	45%
永远不会被解决	35%