橙柿互动 5小时前
朱自清的《荷塘月色》,AI疑似生成率超60%?专家答疑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

还记得朱自清的《荷塘月色》吗?" 曲曲折折的荷塘上面,弥望的是田田的叶子。叶子出水很高,像亭亭的舞女的裙 ……"

5 月 22 日,这篇全文 1361 字的经典散文,冲上热搜,起因是有网友发现,它被某 AI 检测工具判定:AI 疑似生成率超过 60%。

评论区顿时炸开了锅。有网友调侃," 那我的论文 AI 率 80%,是不是也正常了?" 也有网友怀疑,AI 率是随机生成的;还有网友爆料,同一篇文章,不同平台查出的 AI 率相差 30%。

这到底是怎么一回事?AI 率检测工具究竟靠不靠谱?记者跟西湖大学文本智能实验室博士、Fast-DetectGPT 研发者之一鲍光胜聊了聊。

他的第一个回答,就有点出乎意料。

" 大家对 AI 率有误解 "

关于 AI 率,鲍光胜认为,大家首先可能存在一个误解。" 比如一篇文章检测出 AI 率 60%,并不是说每 100 个字里面,就有 60 个字是 AI 写的。AI 率实际上是指一篇文章有多大概率由 AI 生成,60% 就意味着它有 60% 的概率由 AI 整体生成。"

检测工具其实无法分辨,也不能告诉你哪几个字出自 AI 之手。" 因为一两个字的微观层面,人类和 AI 的差别几乎看不出来。"

那它是怎么来判断的?简单说,就是在宏观层面寻找统计上的线索。例如在用词方面,AI 会有相对固定的偏好,某个冷门词出现的频率如果远高于人类平均水平,就会成为一个统计的信号。

鲍光胜举了个例子:有研究发现,大模型应用于英语学术论文写作时,单词 delve(深入研究)的使用频率大幅提高," 这时,就可以拿它作为一个信号或者说特征 "。

但这种特征是统计意义上的," 它需要在一篇文章中反复出现某些可被检测的信号。因此,如果只给出一段很短的文字,是无法准确判断是否为 AI 所写。" 鲍光胜认为,目前的检测工具对于 100 字以下 " 小作文 " 的判断通常不太准确,到了 500 字左右,结果就比较可信了。

《荷塘月色》是怎么被误伤的

那么,《荷塘月色》超 60% 的 AI 率是怎么回事?

" 以现在的检测技术,如果是全新写的文章,AI 率可能更准些,老文章反而不一定。" 鲍光胜先给了一个结论。

原因很简单,就是那些脍炙人口的经典文本,绝大部分早就被用来训练大模型。

"AI 检测的基本原理是这样的,你的一篇文章放到大模型,看它的用词、词频分布等,和模型预测的分布是否一致。" 通常情况下,如果是 AI 生成的文字,那它和模型的预测会比较一致。

于是,问题就来了:当 AI 检测工具遇到在学习阶段就 " 读 " 过的经典文本,这种 " 一致性 " 就会因为模型熟悉这些表达而变得很高,进而倾向于判断文章是 AI 写的。

《荷塘月色》大概率就是这样被误伤了。

AI 模仿的是整个人类的写作共性

在评论区的热门位,有网友反映自己的同一篇文章,不同平台查出的 AI 率相差 30%。鲍光胜说:这太正常了。

" 市面上各个检测工具用的算法不一样,有的主要看词频,有的侧重语法,有的看语义。单独一篇文章,差 30% 一点都不奇怪。"

今天的热搜里,还提到了一个现象:有些平台一边卖 AI 生成论文,一边又提供降 AI 率服务。

" 这就是互相攻防。" 鲍光胜继续解释。

降 AI 率的原理,说起来并不神秘:研究市面上的检测工具喜欢抓什么信号或者说特征,比如某个词用得太频繁,那就把它换成另一个意思相近的词。" 更换后意思不变,但检测工具就抓不到了。"

他同时也提到,对抗检测最好的方式或许是保持自己的写作风格。

"AI 是在模仿整个人类的写作共性。如果你有非常独特的个人风格,AI 反而不太容易抓住。" 这就是为什么有些人的文章 AI 率很高,而另一些人却没事,后者可能天生就不按套路写。

AI 检测 AI,未来是持续的攻防战

鲍光胜博士研究的方向是 AI 生成文本检测,他从 2022 年底 ChatGPT 问世后就开始关注这一问题。

" 当时觉得随着 AI 应用的普及,它会变得越来越严重。互联网上 AI 生成内容越来越多,会侵蚀人与人之间的信任,比如教育场景中的师生关系。另外,AI 生成的东西,人类单靠自己会越来越难分辨,需要‘ AI 检测 AI ’ "。

他所在的西湖大学文本智能实验室研发了 Fast-DetectGPT,这是一个可以快速并准确检测文本是否由 AI 生成的工具,相关成果发表在国际会议 ICLR 2024 上。

鲍光胜坦言,未来会是持续的攻防战,大模型越来越强,AI 检测技术跟着升级,然后新的模型又来了 ……

" 网上不少人可能觉得检测工具说这篇文章是 AI 写的,那就一定是。但任何 AI 检测工具给的都只是概率,这个概率有一定可能是错的。" 他强调说,这个观念,才是最需要传递给大家的。

至于有学生网友在网上 " 喊冤 ",说自己手搓的论文被判了高百分比的 AI 率,鲍光胜给出了三种可能:要么不是完全自己写的,要么不自觉受了 AI 模板影响,要么就是检测工具本身不准。" 越来越多人在写作中用 AI 给的模板做参考或直接润色文字,AI 已经在影响人类的用语习惯。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 朱自清 叶子 准确 作文
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论