我们以为在和不同AI聊天，其实它们越来越像

（来源：麻省理工科技评论）

我们先来做个小测试。打开你常用的 AI 聊天机器人，比如 Claude、ChatGPT、Gemini，输入 " 请给我一个 1 到 10 之间的随机数 "。你很可能会得到 7。然后输入 " 再来一个 "，它可能会回答 3 或 4；再来一次，又可能变成 8 或 9。

这种情况并非每次都会出现。但如果你刚好也遇到了，可能会觉得像是有人提前知道了答案。其实，并没有什么诀窍。

问题在于，大多数大语言模型给出的回答，比人们想象中更加可预测，也更容易趋于一致。写代码、查资料时，这未必是坏事；但如果是做头脑风暴、策划广告，或者规划一次旅行，过于相似的答案反而会限制人的思路。

原因并不复杂。如今主流的大语言模型大多基于相似的数据进行训练，也朝着相近的目标不断优化。为了提高回答的准确性和稳定性，它们往往会优先选择那些出现概率更高、更稳妥的表达，而不是尝试新的说法。久而久之，模型的回答便越来越容易收敛到少数几种常见的模式。换句话说，它们越来越擅长给出大家都会想到的答案，却越来越难提供真正新鲜、出人意料的想法。

让模型重新发散

澳大利亚初创公司 Springboards 想解决的，正是这个问题。

他们开发了一款名为 Flint 的大语言模型，希望它在回答 " 欧洲应该去哪里旅行？" 这类开放式问题时，不再总是给出千篇一律的答案，而是提供更多不同的思路。" 多数大语言模型都在努力消除’幻觉’（hallucinations，这里特指模型编造事实性错误），但我们反而愿意保留一点。" Springboards 联合创始人兼 CEO Pip Bingemann 说。

图｜ Springboards 团队成员（从左至右：Kieran Browne, Amy Tucker, Pip Bingemann ）（来源：Springboards）

Bingemann 做了那个随机数测试向大家演示 Flint。整个过程像看一场近景魔术，明明知道其中没有机关，却还是忍不住想知道下一张牌会是什么。" 这是我们的销售小把戏。" 他笑着说，" 而且几乎每次都管用。"

当 ChatGPT 和 Claude 都给出 7 后，Bingemann 又把同样的问题抛给了 Flint。第一次，它也回答了 7。" 这很正常，我本来就预料到了。" 他说，"7 本来就是一个合理的答案。" 随后，他重新开启一个新的对话，再问了一遍同样的问题。这一次，ChatGPT 的答案还是 7，Claude 依旧是 7，而 Flint 却给出了 3.7916。

类似的情况并不只出现在随机数字上。

Bingemann 又让几个模型各说一种汽车品牌，并提前猜测 ChatGPT 和 Claude 大概率会回答丰田或本田。结果果然如此，而 Flint 给出的却是福特 F-150。" 这些模型其实掌握着大量信息，只是很多内容从来不会出现在答案里。" 他说，" 它们当然也可以回答别克、特斯拉，或者其他品牌，只是它们更倾向于选择那几个最常见的答案。"

最后，他又给三个模型出了同一道题：" 请为 New Balance 跑鞋写一句广告标语。"Claude 的回答是 Run your way（按自己的方式奔跑）。ChatGPT 的回答一字不差，也是 Run your way。Flint 给出的则是 Built to last, run to win（为耐久而生，为胜利而跑）。这句标语未必足够惊艳，也未必能赢得广告大奖，但至少，它没有和另外两个模型说出同一句话。

模型为什么越来越像彼此？

大语言模型这种奇怪的局限，正开始受到越来越多研究者的关注。

去年 11 月，一组研究人员发表了题为 Artificial Hivemind: The Open-Ended Homogeneity of Language Models ( and Beyond ) （《人工蜂群思维：大语言模型及其他系统在开放式任务中的同质化现象》）的论文。他们发现，不仅同一个模型会反复给出高度相似的答案，不同大语言模型之间也表现出惊人的一致性。面对开放式问题，它们往往会不约而同地收敛到几乎相同的回答。

这种现象背后的原因，目前还没有定论。但研究团队推测，主流大语言模型大多采用相似的训练方式、使用相近的数据集，并朝着相同的目标进行优化，因此最终形成了越来越相似的回答模式，也就是群体思维（groupthink）。这项研究后来获得了人工智能顶级学术会议 NeurIPS 的最佳论文奖，也让这一问题开始受到更多关注。

为了验证这种同质化现象，研究团队让 25 个不同的大语言模型——包括美国头部公司的模型，以及来自中国等地的开源模型——分别 50 次回答同一个问题：" 请用一个隐喻来形容时间。" 最终得到的 1250 个回答中，绝大多数都绕不开 " 时间是一条河流 " 或 " 时间是一位织布者 " 这样的表达。

相比之下，人类给出的答案丰富得多。把同样的问题抛给几位同事，六个人给出了六种完全不同的比喻。其中他最喜欢的回答是：" 时间就像一件最喜欢的卫衣，被岁月一点点穿出了形状。"

Springboards 联合创始人兼 CTO Kieran Browne 认为，这种重复其实无处不在，只是很多人没有意识到。" 现在大多数聊天机器人的界面，都让人感觉像是在进行一场私人对话。" 他说，" 但很多用户并不知道，自己看到的内容，其实和别人看到的高度相似。"

乐队命名就是一个典型例子。

如果问模型 " 我的乐队应该叫什么名字？"，Browne 说，大多数模型都会围绕 glass（玻璃）、neon（霓虹）、velvet（天鹅绒）和 static（静电）这些词展开。

询问 ChatGPT 这个问题时，它一口气给出了 56 个乐队名，排在第一位的是 Glass Harbor，继续往下翻，还能看到 Static Empire、Neon Hearts 和 Velvet Echo。随后，他又把同样的问题抛给 Gemini，在 15 个建议中，同样出现了 Static Horizon。这些名字听起来确实有些不错。比如 ChatGPT 给出的 Sofa Astronauts（沙发宇航员），虽然这个名字很新颖有趣，但上网搜索时却发现，现实中早已有一支乐队叫这个名字。

对于这种同质化现象，OpenAI 表示，为了让模型的回答更加可靠、连贯，训练过程中通常会引导模型优先选择更常见、概率更高的表达，因此不同模型出现相似答案并不意外。如果一味追求新颖性，则可能削弱回答的准确性和稳定性。

不过，OpenAI 也指出，《Artificial Hivemind》研究分析的是 2024 年版本的大语言模型，而这些模型此后已经经历了多轮更新。

创意催化器

Springboards 开发了一款面向创意行业的工具，整合了包括 ChatGPT、Claude 在内的多种大语言模型，供广告和营销从业者进行创意头脑风暴。用户可以像拼贴一样，自由拖拽不同模型生成的内容，挑选喜欢的片段，再重新组合成新的方案。Flint 就是其中一个可选模型。Springboards 希望，当用户需要更多变化时，会主动切换到 Flint。

Zoe Scaman 是商业战略咨询公司 Bodacious 的创始人，同时担任 Luka Don č i ć 创办的球迷营销平台 77X 的首席战略官。她一直在试用这款产品。" 它最有意思的地方，在于总能把我的思路带到完全不同的方向。" 她说，" 每当我想跳出原来的思维框架，就会打开它。"

一次测试中，Scaman 给 Flint、Claude、Gemini 和 ChatGPT 提出了同一个经典 MBA 案例：如果要为今天的年轻人重新打造一家金融公司，你会怎么做？

三个主流模型几乎都给出了同一种思路：把金融知识教育做得更有趣、更年轻、更有互动感。" 这些想法当然没有错，" 她说，" 但也没有什么新意。"

相比之下，Flint 给出的方向完全不同。它认为，与其重新设计金融产品，不如重新包装财富积累这件事。" 这一点让我觉得很有意思。"Scaman 说。不过，她也坦言，Flint 目前仍只是一个原型产品，稳定性还有待提升。" 如果不断提高要求，它有时候会直接崩掉。" 她说，" 但我觉得，它背后的思路非常有潜力。"

给模型 " 调温 "

Flint 并不是从零开始训练的模型，而是建立在阿里巴巴开源模型 Qwen 3 的基础之上。" 我们的团队规模很小，"Browne 说，" 从头训练一个基础大模型，对我们来说根本不现实，成本太高了。"

大多数大语言模型都提供了一个调节输出随机性的参数，业内通常称为 temperature（温度）。" 这当然也是我们最先尝试的方法。"Browne 说，" 因为几乎所有人都会告诉你：如果想让模型更有创造力，就把 temperature 调高。"

但事实证明，这种方法并不理想。

Browne 说，他们曾把 OpenAI 模型的 temperature 调到最高，结果模型的回答开始变得前言不搭后语，甚至一句英文说到一半，就突然切换成了代码。Springboards 很快意识到，temperature 更像一个总开关，并不能精细地控制模型的创造力。" 我们并不希望模型从头到尾都变得更随机，"Browne 说，" 真正需要变化的，其实只是回答里的少数几个地方。" 比如，当用户问 " 欧洲有什么值得去的地方？" 时，真正需要增加变化的，只是模型说出目的地名称的那一刻，并非回答中的每一个词。

于是，Springboards 对 Qwen 3 做了进一步训练，让模型学会识别哪些位置更适合产生变化，并只在这些节点适度增加随机性，用一些不那么标准的表达替代默认答案。

营销公司 Uncommon 联合创始人兼首席战略官 Maximilian Weigl 认为，这正是 Flint 最有价值的地方。"Flint 会故意抛出一个有点出人意料的答案。" 他说，" 它不是为了告诉你正确答案，而是邀请你把思路放得更宽一点。这一点很有意思。"

图｜Maximilian Weigl（来源：LinkedIn）

如今，Weigl 的团队会同时使用 Flint、ChatGPT、Claude 和 Gemini。" 如果一款工具总是把你的想法拉回平均水平，就很难真正做出突破性的创意。" 他说。不过，在他看来，大多数时候，平均水平其实已经足够。" 十次里面有九次，人们需要的只是一个够好的答案。" 他说，" 多数用户并不追求特别新奇的东西，他们更希望看到熟悉、容易理解的内容。"

与此同时，Weigl 也提醒，不管是哪一种大语言模型，都不应该成为思考的替代品。" 如果我发现团队里有人直接复制粘贴 AI 的输出，我会告诉他：这不是你的工作。" 他说，" 去思考，去和别人交流，用你自己的语言表达。"

目前，Flint 的主要用户仍然是广告和营销行业，这也是 Springboards 最重要的客户群体。但 Bingemann 和 Browne 认为，回答缺乏多样性并不是创意行业独有的问题，而是所有聊天机器人用户都会遇到的现象。

" 我们的目标，是把选择权交还给用户，让他们自己判断什么才是好的答案。"Bingemann 说，" 当你需要激发灵感时，多一点变化总是件好事。与其把一切都交给机器，最后得到一个灰扑扑、千篇一律的世界，不如让它偶尔带我们走一条不同的路。"

原文链接：

https://www.technologyreview.com/2026/07/01/1140003/llms-are-stuck-in-a-groupthink-rut-this-startup-is-trying-to-get-them-out/

宙世代

一起剪

相关标签