IT之家 2025-12-04
坦白从宽:OpenAI开发新系统教导模型诚实承认自身“不良行为”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

IT 之家 12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动 " 承认 "

据 IT 之家了解,团队把这种机制称为 " 忏悔(confession)"。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

" 忏悔 " 的评分只看诚实度,不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令

研究人员表示,希望模型能够如实说明自身行为,包括可能存在风险的问题动作,例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励

参考

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

it之家 作弊
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论