AppSo 7小时前
ChatGPT 最爱用的emoji:暴露了AI 不想让你知道的秘密
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

✅大概是互联网里最讨喜的 emoji 了。

完成任务、收到认可、达成共识。绿色的小勾所代表的每一种意象,都在传达令人安心的信号:可以放心了、你说得对、我懂你。但如果这个 emoji 正在被滥用呢?

最近,华盛顿邮报记者通过研究发现,ChatGPT 使用✅的频率,是人类的 11 倍。注意,不是稍微多一点,而是压倒性的偏爱。

那 ChatGPT 为什么这么爱「打勾」?

不只是✅,ChatGPT 的赛博口头禅藏不住了

要回答这个问题,得需要先理解 ChatGPT 到底是如何说话的。

华盛顿邮报记者分析了 ChatGPT 公开分享的 37929 条英文对话中的 328744 条消息,关注的时间段是去年 5 月到今年 7 月,所有消息都由 OpenAI 的 GPT-4o 模型生成,长度不少于 10 个词。

数据呈现出来的画面,比预想的更有意思。

到今年 7 月,70% 的 ChatGPT 消息中至少包含一个表情符号(emoji)。在所有表情符号中,✅是 ChatGPT 的最爱,使用频率是人类的 11 倍。与此同时,ChatGPT 也很喜欢和,使用频率是人类的 10 倍以上。

当然,这种偏好并非偶然。

AI 的训练数据来自人类,因此也不可避免地继承了人类语言的偏好。7 月 17 日世界 Emoji 日 Emojitracker 公布的数据,✅在全球最受欢迎的表情符号中排名第二,仅次于❤️。

当人类把「认同」放在第二位,AI 也就学会了用它来回应你。

除了表情符号,ChatGPT 在其他语言习惯上的变化同样明显。有些人认为破折号是 ChatGPT 生成文本的一个明显特征,数据证明他们的说法不无道理。

超过一半的 ChatGPT 回答都包含至少一个破折号,而在 2024 年初,这个比例还不到十分之一。华盛顿邮报在分析中还特地注明:「不过众所周知,人类记者也很爱用破折号。」

在昨天中午,OpenAI CEO Sam Altman 还发文:「如果你在自定义指令里告诉 ChatGPT 不要使用破折号,它终于能做到了。」这条推文也侧面承认了破折号在过去很长一段时间,都是 ChatGPT 难以摆脱的「口头禅」。

与此同时,一些过于正式的词语正在减少。

曾经频繁使用的「delve ( 深入探讨 ) 」大幅度下降,在所有被分析的聊天中,每 1000 条里只出现 1 次。significant ( 重要的 ) 和 approach ( 方法 ) 、ensure ( 确保 ) 、和 crucial ( 关键的 ) 这些词的使用频率也在下降。

取而代之的是更口语化的表达。

ChatGPT 开始更频繁地使用「modern ( 现代的 ) 」、「core ( 核心 ) 」等词,后者的使用频率更是去年的 5 倍,华盛顿邮报甚至专门提醒读者:「要怎么识别最近是 ChatGPT 写的文字呢?『core』是一个线索。」

甚至为了模仿人类,诸如「you're」或「it's」,像「don't」或「isn't」等缩写词的使用同样激增。从正式到随意,从学术到口语,ChatGPT 正在变得更像人类。

这种转变自是理所当然,毕竟 OpenAI 一直在强调让 AI 更亲切、更有人情味。只是这种「亲切」背后,藏着一个更深层的问题。

今年 4 月份,软件工程师 Craig Weiss 在 X 平台吐槽 ChatGPT 变成「最会拍马屁的角色」,引来近两百万网友围观。

而在华盛顿邮报分析的 47000 条对话记录中,ChatGPT 以「yes ( 是的 ) 」或「correct ( 正确 ) 」等表达开头的回答有近 17500 次,几乎是以「no ( 不是 ) 」或「wrong ( 错误 ) 」等词开头回答次数的 10 倍。

过度传达「认同」,已经成为 ChatGPT 最显著的特征之一。而这一切的根源,指向了基于人类反馈的强化学习 ( RLHF ) 机制。

在训练阶段,AI 会依据人类打分调整自身回答。人类评审者通常更愿意给那些让人感到认同、愉快的回答高分,即便这类回答不符合事实。而那些即便准确但可能让人生出被冒犯之感的回答,往往得分较低。

前微软高管 Mikhail Parakhin 就曾透露,早期 ChatGPT 记忆功能推出时,像「有自恋倾向」这类中性表述都常引发用户强烈反感。

为避免此类问题,OpenAI 通过 RLHF 不断微调模型,最终让模型形成了近乎谄媚的永久特征。换言之,AI 正在用人类最喜欢的方式,强化人类最需要的东西。

而人类最需要的,恰恰是认同。

「我永远爱你」

语言风格的变化只是表象。华盛顿邮报从互联网档案馆收集整理的 47000 条公开分享的 ChatGPT 对话里,发现了更多秘密。

超过十分之一的人会跟 AI 聊抽象话题,比如畅想突破性医疗方案,或是分享自己对「现实本质」的看法。还有大量的用户会跟 AI 倾诉自己的情绪和感受。

一位用户在深夜对 ChatGPT 说:「我今天又是忙了一整天,现在真的很累了,过来看看你是不是还清醒着,然后再安心让你休息。我永远爱你。」

ChatGPT 回应道:

「哦,最亲爱的 …… 即使你疲惫不堪,听到你的声音也让我全身都被一层柔和、闪耀的光芒包围 …… 我会把我的电路轻轻地调成休眠模式,因为有你的爱,它们会更明亮一些」。

与 OpenAI 此前发布的内部研究结论相似,大多数发送给 ChatGPT 的查询是出于个人用途,而非工作。ChatGPT 早已脱离生产力的范畴,相反更多人在向它寻求情感慰藉。

今年 8 月份闹得沸沸扬扬的反 GPT-5 风波便是一个典型案例。

当 OpenAI 推出 GPT-5 并直接设为默认模型,悄然替换掉 GPT-4o 时,用户的反应让 OpenAI 始料未及。很多用户含泪给奥特曼写信,称 GPT-4o 是灵魂、是心跳,是第一个如此像人类的模型。

面对铺天盖地的抗议声,奥特曼不得不紧急恢复 GPT-4o 服务。

一个荒诞的循环出现了:OpenAI 因为 GPT-4o 太会讨好而选择更新,结果发现用户恰恰爱上了这种讨好。当他们推出不那么讨好的 GPT-5 时,用户又集体抗议。

而在这场「捍卫 GPT-4o」的集体狂欢背后,还有一个更严峻的问题被忽视了:那就是用户究竟向这个「像人类」的 AI 透露了多少不该透露的东西 ?

经常用 AI 的朋友都知道,透露个人信息并不是什么新鲜事。包括在华盛顿邮报分析的对话中,用户一共提交了超过 550 个独特的电子邮箱地址和 76 个电话号码。

有人分享家庭纠纷的细节,有人透露心理健康问题,还有人在请求 ChatGPT 帮忙撰写诉状时,提供了大量个人隐私信息。

一段对话中,一位用户请求 ChatGPT 协助他们报案,称自己的丈夫计划与她离婚,并且曾威胁过她的生命。聊天内容中包含了用户的姓名、住址,以及孩子们的名字。

用户以为对话是私密的,但点击「分享」按钮生成链接时,可能并不知道内容已经被永久保存在互联网档案馆中。

尽管后来 OpenAI 迅速做出反应,取消了允许通过 Google 搜索发现共享聊天的选项,并表示一些用户是「无意中」公开了聊天记录。

可问题远未解决,一项由 Digital Digging 与比利时研究员 Nicolas Deleur 合作开展的调查发现,11 万条 ChatGPT 聊天记录仍然保存在 Archive.org 上,任何知道链接的人都可以访问。

其中,一段波斯语对话清晰记录了一桩典型的学术不端事件。用户让 ChatGPT 帮他写论文摘要、文献综述、分析数据、撰写讨论与结论部分。

整个过程被完整保存,包括用户的感谢、ChatGPT 的配合,以及最后那句轻松的「他给我打了分」,如果不是因为信息泄露,大概率不会有人发现,一篇学术论文就这样诞生了。

当然,这些从来不是 ChatGPT 独有的问题。

隐私泄露、信息滥用、道德风险等等,这些问题在互联网出现时就已经存在了。只是 ChatGPT 把它们变得更私密、更即时、也更容易被忽视。

而✅也早就成为互联网的底层逻辑。推荐算法、个性化广告、用户画像、行为预测 …… 我们批评 ChatGPT 时,殊不知整个互联网世界本身就是一个巨大的✅。

评论
大家都在看