刚刚,图灵奖得主、深度学习三巨头之一、蒙特利尔大学教授 Yoshua Bengio 官宣了非营利组织 LawZero,希望通过采取与大型科技公司根本不同的方法,开发一种 " 设计安全 " 的人工智能(AI),以发现试图欺骗人类的 " 流氓 " 系统。
LawZero 以科幻小说作家 Isaac Asimov 的机器人第三定律命名 --" 机器人不得伤害人类,也不得因不作为而让人类受到伤害。"
LawZero 的最初支持者包括人工智能安全机构 " 未来生命研究所 "、Skype 创始工程师 Jaan Tallinn 和谷歌前首席执行官 Eric Schmidt 创办的研究机构 Schmidt Sciences。
Bengio 将担任 LawZero 的主席。他们在 LawZero 官网写道:
当前的前沿系统已经显示出自我保护和欺骗行为的迹象,随着其能力和代理程度的提高,这种现象只会加速。
我们认为,应将 AI 作为全球公益事业来培养,安全地开发和使用 AI,以实现人类的繁荣。每个 AI 前沿系统的基础都应基于一个核心承诺:保护人类的快乐和努力(to protect human joy and endeavour)。
据介绍,Bengio 及其团队正在开发一个名为 Scientist AI 的系统,该系统将充当防护栏,防止 AI agent(能够在没有人类干预的情况下执行任务)出现欺骗或自我保护行为,例如试图避免被关闭。
Bengio 认为,代理(agentic)系统是 " 一个错误的选择 ",此类系统有可能脱离人类控制,并可能带来不可逆转的后果。
" 如果我们拥有一个能治愈癌症的 AI,但另一个版本的 AI 也可能失控,制造出一波又一波的生物武器,杀死数十亿人,那么我认为这是不值得的。"
他将目前的 AI agent 描述为试图模仿人类和取悦用户的 " 演员 ",并表示 Scientist AI 系统更像是一个 " 心理学家 ",能够理解和预测不良行为。具体而言,Scientist AI:
设计目标在于在通过理解世界(而非直接行动)来提供帮助。
被设计为非 agent,其没有自主行动能力和目标导向性。
由两个主要部分组成:一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)。这两个部分都带有不确定性概念,以减轻过于自信预测的风险。
可以应用于加速科学发现,帮助设计实验和预测结果;作为其他 AI 系统的安全护栏(Guardrail),评估其行为的风险,并阻止可能导致危害的行动;以及用于研究如何安全地开发超级 agent。
学术头条曾对 Scientist AI 系统进行过专门报道,详见:
论文链接:https://arxiv.org/abs/2502.15657
Bengio 表示:" 我们希望打造的 AI 是诚实的,而不是欺骗性的。"
他补充说:" 理论上可以想象,机器没有自我,没有自己的目标,只是纯粹的知识机器——就像一个知道很多东西的科学家。"
不过,与目前的生成式 AI 工具不同,Bengio 的系统不会给出确定的答案,而是会给出答案是否正确的概率。他说:" 它有一种不确定答案的谦卑感。"
与 AI agent 一起部署,Scientist AI 将标记(flag)自主系统的潜在有害行为——衡量其行为造成伤害的概率,如果该概率高于某个阈值,该 agent 提议的行为将被阻止。
Bengio 说,LawZero 的第一步将是证明这一概念背后的方法是可行的,然后说服公司或政府支持更大、更强大的版本。他补充说,开源 AI 模型可以免费部署和调整,将成为训练 LawZero 系统的起点。
" 关键是要展示这种方法,这样我们就可以说服捐助者、政府或 AI 实验室投入必要的资源,以与当前的前沿 AI 相同的规模对其进行训练。非常重要的一点是,安全护栏 AI 至少要和它试图监控的 AI agent 一样聪明。"
Bengio 还提到,Anthropic 最近承认,其最新系统可能试图勒索计划关闭该系统的工程师,他对此表示担忧。他还指出,研究表明,AI 模型能够隐藏自己的真实能力和目标。他认为,这些例子表明,随着 AI 能够更好地进行推理,世界正在走向 " 越来越危险的领域 "。
Bengio 说:" 我认为每个人都应该扪心自问,‘我能做些什么来确保我的孩子有一个美好的未来。’ "
" 因为我是一名研究人员,所以我的答案是,‘好吧,我要研究这个科学问题,也许我能有所作为’,但其他人可能有不同的答案。"
整理:学术君
如需转载或投稿,请直接在公众号内留言
登录后才可以发布评论哦
打开小程序可以发布评论哦