IT 之家 11 月 24 日消息,一项关于人工智能(AI)的最新研究表明,大语言模型(LLM)在理解双关语方面有所欠缺。

来自英国和意大利多所高校的专家团队近期开展了一项研究,重点考察大语言模型对双关语的理解能力,结果发现其表现令人失望。该团队由南威尔士卡迪夫大学(Cardiff University)与意大利威尼斯福斯卡里宫大学(Ca ’ Foscari University of Venice)的研究人员组成,他们得出结论:尽管大语言模型能够识别双关语的表层结构,却无法真正领会其中的幽默含义。
IT 之家注意到,研究团队测试了一个典型双关语例句:"I used to be a comedian, but my life became a joke."(我曾是一名喜剧演员,但我的人生却成了一句‘玩笑话’ / 一场‘闹剧’。)当研究人员将句末 "a joke" 替换为语义相近但无双关意味的 "chaotic"(混乱不堪)时,大语言模型仍倾向于判定该句含有双关。
另一个测试例句为:"Long fairy tales have a tendency to dragon."(冗长的童话故事往往容易 "dragon"[拖得太长]。)此处 "dragon" 谐音 "drag on"(拖沓延续),构成双关。然而,即便将其替换为同义词 "prolong"(延长),甚至一个随机词,大语言模型仍会误判该句存在双关成分。
卡迪夫大学计算机科学与信息学院的何塞・卡马乔・科拉多斯(Jose Camacho Collados)教授指出,此项研究揭示了大语言模型对幽默的理解仍极为薄弱。" 总体而言,大语言模型倾向于记忆训练数据中学到的内容,因此能较好识别已存在的双关语,但这并不意味着它们真正理解这些双关语。" 他解释道," 我们通过修改现有双关语、刻意移除构成双关的双重语义后,始终能‘欺骗’大语言模型。在这些情况下,模型会将修改后的句子与记忆中的双关语强行关联,并编造各种理由‘论证’其仍属双关。归根结底,我们发现:大语言模型对双关语的理解,其实只是一种‘幻觉’。"
研究团队进一步发现,面对不熟悉的文字游戏,大语言模型区分双关语与非双关语句的准确率可降至 20%。
研究人员还测试了另一则双关语:"Old LLMs never die, they just lose their attention."(老一代大语言模型永不消亡,它们只是失去了‘注意力’[attention]。)此处 "attention" 暗指 Transformer 架构中的 " 注意力机制 "。当研究者将 "attention" 替换为 "ukulele"(尤克里里)时,某大语言模型竟仍判定其为双关,理由是 "ukulele" 听上去近似 "you-kill-LLM"(你干掉了 LLM)。团队虽对该模型的 " 联想创造力 " 感到惊讶,但显然它仍未真正 " 懂 " 这个笑话。
研究人员强调,该成果凸显了人们在依赖大语言模型执行需具备幽默感、共情能力或文化敏感性的任务时,应保持高度审慎。相关研究成果已于本月早些时候在中国苏州举行的 "2025 年自然语言处理实证方法会议 "(EMNLP 2025)上发表,论文题为《双关非本意:大语言模型与幽默理解的幻象》(Pun unintended: 大语言模型 and the illusion of humor understanding)。


登录后才可以发布评论哦
打开小程序可以发布评论哦