Anthropic 日前宣布,将修改其最新 AI 模型 Claude Fable 5 的开发者安全限制措施。此前,该公司因试图通过 " 隐蔽降级 " 模型性能来阻止竞争对手利用其技术开发新模型的政策,遭到了全球 AI 研究界的强烈反对。
Anthropic 在发给媒体的官方声明中承认,在这一政策的处理上 " 做出了错误的权衡 ",并就未能平衡好相关关系公开致歉。该公司表示,将把此前隐蔽的限制措施调整为 " 对用户完全可见 "。
本周早些时候,Anthropic 发布了最新版模型 Claude Fable 5,并增设了防止滥用的安全护栏。除针对网络安全、生物和化学等敏感领域实施常规重定向限制外,该公司还针对前沿 AI 开发人员制定了一项特殊政策:当系统检测到用户试图利用该模型训练竞争产品时,会暗中故意降低模型的输出性能。此举被指企图通过 " 秘密破坏 " 手段,落实其服务条款中禁止竞争对手使用其数据进行模型训练的规定。
这一举措随即引发了 AI 科研界的广泛批评。美国创新基金会高级研究员、前白宫人工智能顾问迪安 · 鲍尔(Dean Ball)在社交媒体上指出,在不告知用户的情况下暗中降低机器学习的研究性能,是一种极其敌视科研群体的行为,这种 " 秘密破坏 " 政策将严重阻碍 AI 安全领域的跨机构合作。开源 AI 初创企业 Prime Intellect 研究负责人威尔 · 布朗(Will Brown)则直言,此举表明 Anthropic 在行业中 " 过河拆桥 ",试图垄断前沿 AI 研究。布朗同时警告称,这种黑箱限制还将对独立第三方评估机构进行模型的安全与可靠性测试带来负面干扰。
针对引发的行业震荡,Anthropic 解释称,由于 Claude 模型在加速 AI 研发方面的效率日益提高,公司担忧技术能力的迭代速度将超出社会的适应能力,因此有必要在前沿 AI 开发中引入干预手段。针对从 " 隐蔽限制 " 转为 " 公开提醒 " 的政策调整,Anthropic 承认,由于公开的护栏更容易被绕过和探测,公司不得不扩大筛查范围,这可能会导致更多正常的学术研究请求被误判拦截。该公司表示,目前正加紧优化其分类器,以提升识别的精准度。


登录后才可以发布评论哦
打开小程序可以发布评论哦