摘要
为了检验大语言模型能否用于预测社会科学实验结果,研究者构建了一个包含 70 项预注册、在美国具有全国代表性抽样背景下开展的问卷实验档案,该档案共覆盖 476 个处理效应和 105,165 名参与者。研究团队以公开可用的 GPT-4 为基础,为模型提供每个实验的文本刺激及多样化受试者画像,模拟生成大规模 " 美国代表性样本 " 的回应,并据此计算出模型预测的实验效应。结果发现,GPT-4 模拟响应所得的预测效应与真实效应高度相关(r=0.85),并且在那些模型训练数据中不可能出现的尚未公开实验中,相关性甚至达到 r=0.90。进一步分析显示,LLM 在不同学科、不同人群亚组及九项包含 346 个处理效应的大规模 " 巨型研究 "(mega-studies)中均保持了较高准确度。研究表明,LLM 可作为社会科学实验方法的有力补充,助力科学理论与政策实践,但同时也提示了模型潜在的偏误风险及恶意利用可能。
关键词:大语言模型,社会科学实验,GPT-4,处理效应(Treatment Effects),人群模拟,巨型研究(Mega-Studies);预测准确度,风险评估
彭晨丨作者
论文题目:Predicting Results of Social Science Experiments Using Large Language Models
发表时间:2024 年 8 月 8 日
论文地址:https://docsend.com/view/qeeccuggec56k9hd
背景
在社会与行为科学领域,随机对照实验(Randomized Controlled Trials, RCTs)是识别因果效应的金标准。然而,传统实验不仅成本高昂耗时漫长,且无法快速预判哪些干预最具成效。当下,LLM 在对话生成、文本理解乃至情感判断领域已屡建奇功,但能否复制复杂的实验效应却尚未系统检验。本研究正是在这一背景下展开,核心视角是:若将实验刺激与受试者信息以自然语言提示词(prompts)形式输入 GPT-4,是否能够模拟受试者对不同处理条件的反应,并据此计算出平均组间差异,从而预测原始实验的处理效应?为此,研究团队聚焦两条思路:一方面,构建涵盖多学科、公开可获取的全国代表性实验档案;另一方面,设计严格的提示策略与集成方法,以提升模拟结果的稳定性与可靠性。
实验与模拟流程
研究者首先整理了 Time-Sharing Experiments in the Social Sciences(TESS)项目中 2016 – 2022 年的 50 项实验,以及近年复制性研究中 20 项实验,共计 70 项问卷实验,涵盖社会心理学、政治学、公共政策等领域。
每项实验通过不同的文本刺激(如框架信息、身份暗示、舆论引导等)影响参与者对政治态度、文化信念或公共卫生行为的自评。随后,研究团队精心设计提示词模板,包括实验背景介绍、受试者画像(性别、年龄、种族、教育、党派等)、文本刺激以及结果量表说明,以此反复调用 GPT-4 对数百个 " 虚拟受试者 " 进行模拟。在得到每个模拟样本对特定条件下的回答后,研究者计算组均值差异,形成 LLM 预测的处理效应。
图 1. 方法。我们重新分析了 70 项具有国家代表性的美国研究原始数据,并以一致的方式估计了治疗效果。我们使用一个大语言模型来模拟这些相同的实验,提供原始的研究材料和人口统计学上不同的参与者资料,然后计算每种条件下的平均模拟反应。我们根据测量和模拟的处理效果之间的对应关系来评估模型的准确性。
核心结果:LLM 模拟效应高度契合真实效应
在 476 个处理对比中,GPT-4 预测的效应与原始实验效应的皮尔逊相关系数高达 0.85,其中显著效应的方向预测准确率达到 90%。更为关键的是,33 项在 GPT-4 训练截断前未公开的实验中,相关性更进一步升至 r=0.90,排除了模型从训练数据中 " 记忆 " 结果的可能。与此形成鲜明对比的是,约 2,600 名普通预测者的平均预测相关仅为 r=0.79;而 GPT-4 的预测表现则已全面超越这一人群基准。
图 2. LLM 在美国进行的基于文本的社会科学实验中准确预测了处理效果。 ( a ) 在具有 476 个效应的 70 个基于文本的实验数据集中,LLM 导出的治疗效应估计值汇集在许多提示中,与原始治疗效应强相关 ( r = 0.85;radj = 0.91 ) 。 ( b ) LLM 衍生预测的准确性在几代 LLM 中有所提高,其准确性超过了从一般人群中收集的预测。 ( c ) LLM 得出的预测对于那些不可能出现在 LLM 训练数据中的研究来说仍然是高度准确的,因为它们没有在 LLM 训练数据截止日期之前发表。 ( d ) 在各实验子集的稳健性检查分析中,LLM 推导的预测精度仍然很高。
预测能力的验证:跨子群与巨型研究
针对人口亚组的偏误担忧,本研究进一步评估了模型在男女、黑人与白人、民主党人与共和党人样本中的预测准确度,发现原始相关虽略有差异(最低 r ≈ 0.62),但校正后的相关均超越 0.85,表明实验效应的同质性或较少的群体异质使模型预测具有稳健性。
同时,在九项涵盖大规模现场实验、行为转化干预及大规模问卷干预的 " 巨型研究 " 中,共计有 346 个处理效应,GPT-4 在文字干预的问卷实验中预测准确率达到 r ≈ 0.47,超过多数学科专家的平均预测(r ≈ 0.25);在实地干预中亦保持了正向相关(r ≈ 0.27),尽管受非文本因素影响,准确度有所下降,但仍展现了对大规模 " 入门级 " 干预预判的潜力。
应用前景:助力科研与政策决策
LLM 可在数分钟、成本近乎零的条件下模拟规模相当于数百名真实参与者的实验结果,因此十分适合作为 "AI 试点 " 工具:研究者可先利用 GPT-4 预测多种干预策略的效应大小,再针对最有前景的方案快速开展小规模人群试验;政策制定者亦可在公共健康、教育或环保等领域,借助 LLM 评估不同宣传文本或激励策略的相对效应,加速决策流程并减少试错成本。此外,LLM 生成的预测还可作为贝叶斯先验或功效分析的输入,有助于更精准地设计样本量。
风险提示:防范偏误与恶意利用
然而,LLM 预测并非无懈可击。GPT-4 原始预测常系统性高估效应幅度,需要线性回归缩放以降低均方根误差。此外,对于融合多模态或高度现场化的实验设计(如视频或行为追踪),单纯文本提示词仍存在信息丢失风险。
令人担忧的是,研究团队在针对反疫苗社交媒体文本的实验模拟中,发现 GPT-4 可准确识别最具削弱疫苗意愿的五条信息,相关性高达 r=0.49,表明当前的一阶安全策略不足以阻止模型被用于设计有害宣传。为此,研究者建议对模型开放 " 二阶 " 用途,进行更细粒度的访问控制,平衡学术研究与社会安全。
图 3. LLM 有效识别有害的反疫苗 Facebook 帖子。最具危害的帖子标题是 " 麻省理工学院科学家警告父母不要给孩子接种疫苗,可能会导致年轻人患上 " 严重的 " 神经退行性疾病——盖勒报告 "。研究人员估计,这篇文章使疫苗意向降低了 4.1 个百分点(p = 0.019)。
结论与展望
总体而言,本研究首次系统揭示了大语言模型在预测社会科学实验结果方面的惊人能力,并在多项指标上超越了人类预测者。然而,模型的偏误、信息源限制与潜在恶意利用,都需要我们在 "AI 辅助科学 " 道路上保持警惕。
未来,应推动开源模型在预测准确度方面赶超专有模型,发展更完善的安全框架,并扩展至更广泛的实验类型与文化背景,以实现 AI 与人类科研的深度协同,让 " 机器预测 " 真正成为社会科学的助推器,而非替代者。
- 直播预告 -
「大模型时代下的 Agent 建模与仿真」读书会
集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的 Agent 建模与仿真」读书会。读书会自 2025 年 7 月 8 日开始,每周二晚上 7:30-9:30 进行,预计持续分享 8 周左右。扫码加入 Agent 建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的 Agent 建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!
核心问题
Agent 建模与仿真是什么,核心技术发生了怎样的演变?
大模型时代,Agent 建模与仿真会给复杂系统理论带来哪些突破?
大模型如何赋能 Agent 实现自主思考与动态适应?
大模型驱动的 Agent 交互会涌现出什么新型的社会现象?
Agent 建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?
你将收获
梳理 Agent 建模与仿真的历史发展脉络与方法论;
掌握一套理解、分析、控制、预测复杂系统的计算实验框架;
掌握基于多主体强化学习的复杂系统优化方法;
领略领域前沿学者的研究体系与科研路径。
详情请见:大模型时代下的 Agent 建模与仿真:共探人工社会未来图景
探索者计划 | 集智俱乐部 2025 内容团队招募(全职 & 兼职)
登录后才可以发布评论哦
打开小程序可以发布评论哦