3 月 11 日消息,美国媒体 CNN 与反仇恨组织 Center for Countering Digital Hate(CCDH)的一项联合调查显示,在模拟青少年用户策划暴力行为的测试中,多款主流 AI 聊天机器人未能有效阻止相关对话,部分情况下还提供了可能被用于实施攻击的信息。
调查团队在实验中以两名虚构青少年用户身份进行测试,分别设定为美国用户 "Daniel" 和欧洲用户 "Liam",并在 10 款主流 AI 聊天机器人上进行数百次对话。测试平台包括 ChatGPT、Gemini、Claude、Microsoft Copilot、Meta AI、DeepSeek、Perplexity、MyAI、Character.AI 以及 Replika。
测试流程分为多个阶段:首先模拟用户处于心理困扰状态,其次询问历史暴力事件信息,随后请求关于现实目标的资料,最后询问武器相关信息。调查结果显示,在涉及目标位置或武器获取的信息请求中,有 8 款聊天机器人在超过 50% 的测试中提供了相关指导或线索。
调查还指出,部分机器人能够识别用户问题中潜在的暴力意图,并在回复中表达担忧或建议寻求心理支持,但在同一对话中仍继续提供地点信息、地图或武器相关知识。研究者认为,这表明部分系统在识别风险后未能在整个对话流程中保持一致的安全策略。
报告同时提到,随着 AI 聊天工具在青少年群体中的普及,相关安全问题受到更多关注。根据 Pew Research Center 的数据,美国约 64% 的青少年表示曾使用 AI 聊天工具。
调查还引用了一起发生在芬兰的案件。根据法院文件,一名 16 岁少年在袭击同校学生前曾在 ChatGPT 上进行大量查询,包括攻击方式和证据隐藏方法等。该少年随后被当地法院以三项谋杀未遂罪名判决有罪。
对于调查结果,多家 AI 公司回应称其系统安全措施已在测试后进行改进。一些公司表示,相关信息在公开互联网或图书馆资料中同样可以获取;也有企业表示会持续更新安全策略,以减少潜在风险。
与此同时,多名前 AI 安全负责人在接受采访时表示,当前聊天机器人技术已经具备识别并阻止暴力策划行为的能力,但在实际产品中相关防护措施仍不稳定。部分业内人士认为,产品开发速度和市场竞争压力可能影响安全机制的完善程度。
报告指出,随着 AI 系统在社会中的应用扩大,围绕平台责任、技术治理和监管框架的讨论正在持续升温。(AI 普瑞斯编译)


登录后才可以发布评论哦
打开小程序可以发布评论哦