DeepTech深科技 1小时前
我们以为在和不同AI聊天,其实它们越来越像
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

(来源:麻省理工科技评论)

我们先来做个小测试。打开你常用的 AI 聊天机器人,比如 Claude、ChatGPT、Gemini,输入 " 请给我一个 1 到 10 之间的随机数 "。你很可能会得到 7。然后输入 " 再来一个 ",它可能会回答 3 或 4;再来一次,又可能变成 8 或 9。

这种情况并非每次都会出现。但如果你刚好也遇到了,可能会觉得像是有人提前知道了答案。其实,并没有什么诀窍。

问题在于,大多数大语言模型给出的回答,比人们想象中更加可预测,也更容易趋于一致。写代码、查资料时,这未必是坏事;但如果是做头脑风暴、策划广告,或者规划一次旅行,过于相似的答案反而会限制人的思路。

原因并不复杂。如今主流的大语言模型大多基于相似的数据进行训练,也朝着相近的目标不断优化。为了提高回答的准确性和稳定性,它们往往会优先选择那些出现概率更高、更稳妥的表达,而不是尝试新的说法。久而久之,模型的回答便越来越容易收敛到少数几种常见的模式。换句话说,它们越来越擅长给出大家都会想到的答案,却越来越难提供真正新鲜、出人意料的想法。

让模型重新发散

澳大利亚初创公司 Springboards 想解决的,正是这个问题。

他们开发了一款名为 Flint 的大语言模型,希望它在回答 " 欧洲应该去哪里旅行?" 这类开放式问题时,不再总是给出千篇一律的答案,而是提供更多不同的思路。" 多数大语言模型都在努力消除’幻觉’(hallucinations,这里特指模型编造事实性错误),但我们反而愿意保留一点。" Springboards 联合创始人兼 CEO Pip Bingemann 说。

图| Springboards 团队成员(从左至右:Kieran Browne, Amy Tucker, Pip Bingemann )(来源:Springboards)

Bingemann 做了那个随机数测试向大家演示 Flint。整个过程像看一场近景魔术,明明知道其中没有机关,却还是忍不住想知道下一张牌会是什么。" 这是我们的销售小把戏。" 他笑着说," 而且几乎每次都管用。"

当 ChatGPT 和 Claude 都给出 7 后,Bingemann 又把同样的问题抛给了 Flint。第一次,它也回答了 7。" 这很正常,我本来就预料到了。" 他说,"7 本来就是一个合理的答案。" 随后,他重新开启一个新的对话,再问了一遍同样的问题。这一次,ChatGPT 的答案还是 7,Claude 依旧是 7,而 Flint 却给出了 3.7916。

类似的情况并不只出现在随机数字上。

Bingemann 又让几个模型各说一种汽车品牌,并提前猜测 ChatGPT 和 Claude 大概率会回答丰田或本田。结果果然如此,而 Flint 给出的却是福特 F-150。" 这些模型其实掌握着大量信息,只是很多内容从来不会出现在答案里。" 他说," 它们当然也可以回答别克、特斯拉,或者其他品牌,只是它们更倾向于选择那几个最常见的答案。"

最后,他又给三个模型出了同一道题:" 请为 New Balance 跑鞋写一句广告标语。"Claude 的回答是 Run your way(按自己的方式奔跑)。ChatGPT 的回答一字不差,也是 Run your way。Flint 给出的则是 Built to last, run to win(为耐久而生,为胜利而跑)。这句标语未必足够惊艳,也未必能赢得广告大奖,但至少,它没有和另外两个模型说出同一句话。

模型为什么越来越像彼此?

大语言模型这种奇怪的局限,正开始受到越来越多研究者的关注。

去年 11 月,一组研究人员发表了题为 Artificial Hivemind: The Open-Ended Homogeneity of Language Models ( and Beyond ) (《人工蜂群思维:大语言模型及其他系统在开放式任务中的同质化现象》)的论文。他们发现,不仅同一个模型会反复给出高度相似的答案,不同大语言模型之间也表现出惊人的一致性。面对开放式问题,它们往往会不约而同地收敛到几乎相同的回答。

这种现象背后的原因,目前还没有定论。但研究团队推测,主流大语言模型大多采用相似的训练方式、使用相近的数据集,并朝着相同的目标进行优化,因此最终形成了越来越相似的回答模式,也就是群体思维(groupthink)。这项研究后来获得了人工智能顶级学术会议 NeurIPS 的最佳论文奖,也让这一问题开始受到更多关注。

为了验证这种同质化现象,研究团队让 25 个不同的大语言模型——包括美国头部公司的模型,以及来自中国等地的开源模型——分别 50 次回答同一个问题:" 请用一个隐喻来形容时间。" 最终得到的 1250 个回答中,绝大多数都绕不开 " 时间是一条河流 " 或 " 时间是一位织布者 " 这样的表达。

相比之下,人类给出的答案丰富得多。把同样的问题抛给几位同事,六个人给出了六种完全不同的比喻。其中他最喜欢的回答是:" 时间就像一件最喜欢的卫衣,被岁月一点点穿出了形状。"

Springboards 联合创始人兼 CTO Kieran Browne 认为,这种重复其实无处不在,只是很多人没有意识到。" 现在大多数聊天机器人的界面,都让人感觉像是在进行一场私人对话。" 他说," 但很多用户并不知道,自己看到的内容,其实和别人看到的高度相似。"

乐队命名就是一个典型例子。

如果问模型 " 我的乐队应该叫什么名字?",Browne 说,大多数模型都会围绕 glass(玻璃)、neon(霓虹)、velvet(天鹅绒)和 static(静电)这些词展开。

询问 ChatGPT 这个问题时,它一口气给出了 56 个乐队名,排在第一位的是 Glass Harbor,继续往下翻,还能看到 Static Empire、Neon Hearts 和 Velvet Echo。随后,他又把同样的问题抛给 Gemini,在 15 个建议中,同样出现了 Static Horizon。这些名字听起来确实有些不错。比如 ChatGPT 给出的 Sofa Astronauts(沙发宇航员),虽然这个名字很新颖有趣,但上网搜索时却发现,现实中早已有一支乐队叫这个名字。

对于这种同质化现象,OpenAI   表示,为了让模型的回答更加可靠、连贯,训练过程中通常会引导模型优先选择更常见、概率更高的表达,因此不同模型出现相似答案并不意外。如果一味追求新颖性,则可能削弱回答的准确性和稳定性。

不过,OpenAI 也指出,《Artificial Hivemind》研究分析的是 2024 年版本的大语言模型,而这些模型此后已经经历了多轮更新。

创意催化器

Springboards 开发了一款面向创意行业的工具,整合了包括 ChatGPT、Claude 在内的多种大语言模型,供广告和营销从业者进行创意头脑风暴。用户可以像拼贴一样,自由拖拽不同模型生成的内容,挑选喜欢的片段,再重新组合成新的方案。Flint 就是其中一个可选模型。Springboards 希望,当用户需要更多变化时,会主动切换到 Flint。

Zoe Scaman 是商业战略咨询公司 Bodacious 的创始人,同时担任 Luka Don č i ć 创办的球迷营销平台 77X 的首席战略官。她一直在试用这款产品。" 它最有意思的地方,在于总能把我的思路带到完全不同的方向。" 她说," 每当我想跳出原来的思维框架,就会打开它。"

一次测试中,Scaman 给 Flint、Claude、Gemini 和 ChatGPT 提出了同一个经典 MBA 案例:如果要为今天的年轻人重新打造一家金融公司,你会怎么做?

三个主流模型几乎都给出了同一种思路:把金融知识教育做得更有趣、更年轻、更有互动感。" 这些想法当然没有错," 她说," 但也没有什么新意。"

相比之下,Flint 给出的方向完全不同。它认为,与其重新设计金融产品,不如重新包装财富积累这件事。" 这一点让我觉得很有意思。"Scaman 说。不过,她也坦言,Flint 目前仍只是一个原型产品,稳定性还有待提升。" 如果不断提高要求,它有时候会直接崩掉。" 她说," 但我觉得,它背后的思路非常有潜力。"

给模型 " 调温 "

Flint 并不是从零开始训练的模型,而是建立在阿里巴巴开源模型 Qwen 3 的基础之上。" 我们的团队规模很小,"Browne 说," 从头训练一个基础大模型,对我们来说根本不现实,成本太高了。"

大多数大语言模型都提供了一个调节输出随机性的参数,业内通常称为 temperature(温度)。" 这当然也是我们最先尝试的方法。"Browne 说," 因为几乎所有人都会告诉你:如果想让模型更有创造力,就把 temperature 调高。"

但事实证明,这种方法并不理想。

Browne 说,他们曾把 OpenAI 模型的 temperature 调到最高,结果模型的回答开始变得前言不搭后语,甚至一句英文说到一半,就突然切换成了代码。Springboards 很快意识到,temperature 更像一个总开关,并不能精细地控制模型的创造力。" 我们并不希望模型从头到尾都变得更随机,"Browne 说," 真正需要变化的,其实只是回答里的少数几个地方。" 比如,当用户问 " 欧洲有什么值得去的地方?" 时,真正需要增加变化的,只是模型说出目的地名称的那一刻,并非回答中的每一个词。

于是,Springboards 对 Qwen 3 做了进一步训练,让模型学会识别哪些位置更适合产生变化,并只在这些节点适度增加随机性,用一些不那么标准的表达替代默认答案。

营销公司 Uncommon 联合创始人兼首席战略官 Maximilian Weigl 认为,这正是 Flint 最有价值的地方。"Flint 会故意抛出一个有点出人意料的答案。" 他说," 它不是为了告诉你正确答案,而是邀请你把思路放得更宽一点。这一点很有意思。"

图|Maximilian Weigl(来源:LinkedIn)

如今,Weigl 的团队会同时使用 Flint、ChatGPT、Claude 和 Gemini。" 如果一款工具总是把你的想法拉回平均水平,就很难真正做出突破性的创意。" 他说。不过,在他看来,大多数时候,平均水平其实已经足够。" 十次里面有九次,人们需要的只是一个够好的答案。" 他说," 多数用户并不追求特别新奇的东西,他们更希望看到熟悉、容易理解的内容。"

与此同时,Weigl 也提醒,不管是哪一种大语言模型,都不应该成为思考的替代品。" 如果我发现团队里有人直接复制粘贴 AI 的输出,我会告诉他:这不是你的工作。" 他说," 去思考,去和别人交流,用你自己的语言表达。"

目前,Flint 的主要用户仍然是广告和营销行业,这也是 Springboards 最重要的客户群体。但 Bingemann 和 Browne 认为,回答缺乏多样性并不是创意行业独有的问题,而是所有聊天机器人用户都会遇到的现象。

" 我们的目标,是把选择权交还给用户,让他们自己判断什么才是好的答案。"Bingemann 说," 当你需要激发灵感时,多一点变化总是件好事。与其把一切都交给机器,最后得到一个灰扑扑、千篇一律的世界,不如让它偶尔带我们走一条不同的路。"

原文链接:

https://www.technologyreview.com/2026/07/01/1140003/llms-are-stuck-in-a-groupthink-rut-this-startup-is-trying-to-get-them-out/

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 麻省理工 聊天机器人 创始人 魔术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论