刚刚，图灵奖得主Yoshua Bengio官宣LawZero：保护人类的快乐和努力

刚刚，图灵奖得主、深度学习三巨头之一、蒙特利尔大学教授 Yoshua Bengio 官宣了非营利组织 LawZero，希望通过采取与大型科技公司根本不同的方法，开发一种 " 设计安全 " 的人工智能（AI），以发现试图欺骗人类的 " 流氓 " 系统。

LawZero 以科幻小说作家 Isaac Asimov 的机器人第三定律命名 --" 机器人不得伤害人类，也不得因不作为而让人类受到伤害。"

LawZero 的最初支持者包括人工智能安全机构 " 未来生命研究所 "、Skype 创始工程师 Jaan Tallinn 和谷歌前首席执行官 Eric Schmidt 创办的研究机构 Schmidt Sciences。

Bengio 将担任 LawZero 的主席。他们在 LawZero 官网写道：

当前的前沿系统已经显示出自我保护和欺骗行为的迹象，随着其能力和代理程度的提高，这种现象只会加速。

我们认为，应将 AI 作为全球公益事业来培养，安全地开发和使用 AI，以实现人类的繁荣。每个 AI 前沿系统的基础都应基于一个核心承诺：保护人类的快乐和努力（to protect human joy and endeavour）。

据介绍，Bengio 及其团队正在开发一个名为 Scientist AI 的系统，该系统将充当防护栏，防止 AI agent（能够在没有人类干预的情况下执行任务）出现欺骗或自我保护行为，例如试图避免被关闭。

Bengio 认为，代理（agentic）系统是 " 一个错误的选择 "，此类系统有可能脱离人类控制，并可能带来不可逆转的后果。

" 如果我们拥有一个能治愈癌症的 AI，但另一个版本的 AI 也可能失控，制造出一波又一波的生物武器，杀死数十亿人，那么我认为这是不值得的。"

他将目前的 AI agent 描述为试图模仿人类和取悦用户的 " 演员 "，并表示 Scientist AI 系统更像是一个 " 心理学家 "，能够理解和预测不良行为。具体而言，Scientist AI：

设计目标在于在通过理解世界（而非直接行动）来提供帮助。

被设计为非 agent，其没有自主行动能力和目标导向性。

由两个主要部分组成：一个世界模型（用于生成解释数据的理论）和一个问答推理机器（用于基于这些理论回答问题）。这两个部分都带有不确定性概念，以减轻过于自信预测的风险。

可以应用于加速科学发现，帮助设计实验和预测结果；作为其他 AI 系统的安全护栏（Guardrail），评估其行为的风险，并阻止可能导致危害的行动；以及用于研究如何安全地开发超级 agent。

学术头条曾对 Scientist AI 系统进行过专门报道，详见：

论文链接：https://arxiv.org/abs/2502.15657

Bengio 表示：" 我们希望打造的 AI 是诚实的，而不是欺骗性的。"

他补充说：" 理论上可以想象，机器没有自我，没有自己的目标，只是纯粹的知识机器——就像一个知道很多东西的科学家。"

不过，与目前的生成式 AI 工具不同，Bengio 的系统不会给出确定的答案，而是会给出答案是否正确的概率。他说：" 它有一种不确定答案的谦卑感。"

与 AI agent 一起部署，Scientist AI 将标记（flag）自主系统的潜在有害行为——衡量其行为造成伤害的概率，如果该概率高于某个阈值，该 agent 提议的行为将被阻止。

Bengio 说，LawZero 的第一步将是证明这一概念背后的方法是可行的，然后说服公司或政府支持更大、更强大的版本。他补充说，开源 AI 模型可以免费部署和调整，将成为训练 LawZero 系统的起点。

" 关键是要展示这种方法，这样我们就可以说服捐助者、政府或 AI 实验室投入必要的资源，以与当前的前沿 AI 相同的规模对其进行训练。非常重要的一点是，安全护栏 AI 至少要和它试图监控的 AI agent 一样聪明。"

Bengio 还提到，Anthropic 最近承认，其最新系统可能试图勒索计划关闭该系统的工程师，他对此表示担忧。他还指出，研究表明，AI 模型能够隐藏自己的真实能力和目标。他认为，这些例子表明，随着 AI 能够更好地进行推理，世界正在走向 " 越来越危险的领域 "。

Bengio 说：" 我认为每个人都应该扪心自问，‘我能做些什么来确保我的孩子有一个美好的未来。’ "

" 因为我是一名研究人员，所以我的答案是，‘好吧，我要研究这个科学问题，也许我能有所作为’，但其他人可能有不同的答案。"

整理：学术君

如需转载或投稿，请直接在公众号内留言

宙世代