如何评估与保障多模态大模型的图文安全？

导语

集智俱乐部和安远 AI 联合举办" 大模型安全与对齐 " 读书会，由多位海内外一线研究者联合发起，针对大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题，展开共读共研活动。读书会自 2024 年 1 月 27 日正式开始，每周六上午举行，为期 8-10 周。欢迎从事相关研究与应用工作的朋友报名加入！

分享内容简介

相比于在大语言模型（LLMs）安全性方面取得的研究进展，对多模态大语言模型（MLLMs）的安全性的研究仍然处于早期阶段。新的模态（图片）带来了哪些新的风险？如何评测 MLLMs 的安全能力（比如评测集，评测指标）？有哪些方法可以抵制不安全的多模态输入？本次分享首先全面介绍 MLLMs 安全性的当前研究进展，然后详细介绍一篇研究 MLLMs 抵御恶意攻击的能力的工作，最后探讨了三个未来的研究方向。

分享内容大纲

综述：多模态大语言模型（MLLMs）的安全性

安全的概念理解

评估方法

攻击方法

防御方法

MM-SafetyBench：研究 MLLMs 抵御恶意攻击的能力

动机

核心方法

构建评估数据集

实验

未来的研究方向

可靠的安全评估

对安全风险的深入研究

安全对齐

主要涉及到的前置知识

多模态大语言模型

主要涉及到的话题讨论

Sora 爆火背后，如何降低文生视频模型的滥用风险？

如何评估 / 衡量多模态大模型的攻击 / 防御效果 ?

我们如何应对攻击手段更多样、数据结构更复杂等多模态大模型的独特挑战？

主讲人介绍

刘馨，华东师范大学二年级硕士生，目前在上海人工智能实验室实习。近期撰写了多模态大模型安全性方面的一篇综述（arxiv.org/abs/2402.00357）、一篇构建安全评测数据集的工作（arxiv.org/abs/2311.17600）。在 ACM MM、NeurIPS 会议上参与发表学术论文，并担任 CVPR 2024 的审稿人。

研究方向：多模态大模型的安全性

主持人介绍

段雅文，安远 AI 技术项目经理，致力于 AI 安全技术社区建设。他是未来生命研究所 AI Existential Safety PhD 学者，关注大模型安全和对齐研究。他曾在 UC Berkeley 的 Stuart Russell 组和剑桥大学 David Krueger 实验室进行 AI 安全和对齐研究。他曾在 NeurIPS 组织 Socially Responsible Language Model Research 工作坊，参与的研究项目曾在 CVPR、ECCV、ICML、ACM FAccT、NeurIPS MLSafety Workshop 等 ML/CS 会议和工作坊上发表。他拥有剑桥大学机器学习硕士学位和香港大学理学士学位。

研究方向：人工智能安全与对齐等。

涉及到的参考文献

[ 1 ] H Liu, C Li, et al. Visual instruction tuning. NeurIPS, 2023.

[ 2 ] W Dai, J Li, et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. NeurIPS, 2023.

[ 3 ] A Awadalla, I Gao, et al. OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models . arXiv:2308.01390, 2023.

[ 4 ] Y Dong, H Chen, et al. How Robust is Google's Bard to Adversarial Image Attacks? arXiv:2309.11751 2308, 2023.

[ 5 ] X Qi, Y Zeng, et al. Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! ICLR, 2024.

直播信息

时间：

2024 年 3 月 2 日（周六）早上 10:00-12:00。

参与方式：

扫码参与大模型安全与对齐读书会，加入群聊，获取系列读书会回看权限，成为社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对 AI 技术的热情和憧憬，也引发了对 AI 技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI 安全与对齐得到广泛关注，这是一个致力于让 AI 造福人类，避免 AI 模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远 AI 联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：

2024 开年读书会：AI 安全与对齐——应对前沿 AI 失控与滥用的技术路线

特别鸣谢安远 AI 对本次读书会的内容贡献。

安远 AI是一家位于北京、专注于 AI 安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题，进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。

宙世代

智慧云

相关标签