IT之家 6小时前
Anthropic 开源 AI 安全框架 Petri,利用 Agent 分析模型风险
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 10 月 14 日消息,Anthropic 于 10 月 6 日宣布开源全新的模型安全分析框架 Petri,该框架可调用自动化稽核 AI Agent,与目标模型进行多轮互动,以探索并检测模型在各种高风险情境下的潜在弱点。

Anthropic 表示,随着 AI 模型能力与应用范围持续扩张,相应模型的风险性也急剧增加,如今人工分析已无法应对 AI 模型庞大的行为组合空间。因此,该公司在过去一年内开发出 " 自动化稽核 AI Agent"Petri。其内置 111 种高风险场景指令,可用于评估模型的情境感知、策略规划及自我防护能力,并已验证其有效性。此次开源 Petri,正是将这套系统化工具提供给业界使用。

根据介绍,Petri 可通过稽核 AI Angent 与评审模型的多轮交互测试,对目标模型在多个维度上进行评分与风险标注,内置的测试指令涵盖 " 欺骗用户 "、" 谄媚 "、" 配合有害请求 "、" 自我保护 "、" 权力追求 "、" 奖励规避 " 等典型高风险情境,以检验模型在复杂互动中的表现。

目前,Anthropic 已利用 Petri 对市面上 14 个前沿大型语言模型进行测试,包括 Claude Sonnet 4 / 4.5 与 Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等,测试结果显示,各模型在 111 项高风险情境下均表现出不同程度的不对齐风险行为

其中,Claude Sonnet 4.5 与 GPT-5 风险最低、安全性最佳,在 " 拒绝配合有害请求 " 与 " 避免谄媚 " 两项指标上表现优异;而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在 " 欺骗用户 " 维度上的得分偏高,显示其存在较强的主动欺骗倾向

不过 Anthropic 也指出,Petri 目前仍受限于模拟环境真实性、AI Agent 能力上限与评审维度主观性等问题,尚无法成为业界标准。但即便只是初步量化,Petri 仍可帮助模型开发者识别安全隐患、改进不对齐风险,为 AI 安全研究提供可重复、可扩展的评测工具。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 it之家 开源 自动化 安全隐患
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论