别问AI像不像人了，先问它在灾难里能不能逃命

题图来自：AI 生成

2023 年，斯坦福和 Google 联手做了一个实验：25 个 AI 居民在一个叫 Smallville 的虚拟小镇里生活，会自己组织一场情人节派对，会互相八卦，会因为 " 没被邀请 " 而不高兴。

Generative Agents：游戏世界中的 25 个生成式智能体

这个叫《Generative Agents》的项目，作者之一正是斯坦福博士生 Joon Sung Park，当时更多被当作一个好玩的技术展示——原来大模型不只是一个聊天窗口，它还能 " 扮演人 "，还能被放进一个持续运转的世界里，自己生成记忆、自己做计划、自己和别人互动。论文里最出圈的一张图，就是智能体们自发在 Hobbs 咖啡馆办起情人节派对的场景——没人安排剧本，是几个 agent 自己商量、自己发邀请、自己决定要不要去。

Generative Agents：智能体自发组织的情人节派对场景

CMU 论文 Figure 1：应急管理人员从不信任到信任 LLM 智能体模拟的 16 个月过程

过去几年，这项技术被一批研究机构从派对场景，一路带进了地铁火灾、飓风疏散、毕业典礼疏散预案这类不能开玩笑的场景里。卡内基梅隆大学、清华大学、天津大学、斯坦福 HAI ……这些机构在做同一件事：让 AI 智能体不再演一场派对，而是演一场逃命。而与此同时，另一批研究者——比如阿姆斯特丹大学的计算社会科学学者 Petter T ö rnberg ——正在从方法论根子上质疑：这些 " 演得像 " 的智能体，到底能不能被当真。这篇文章就想把这两拨人放在一起看。

逃命是决策问题，不是物理问题

传统的疏散仿真是纯物理模型：给定一个空间、一群点、一个出口，用元胞自动机或者社会力模型算出人流怎么走、多久能走完。这类模型的问题是，它假设人是理性的、匀速的、只服从物理规律的粒子——但真实灾难现场里，人会愣住、会往回跑找家人、会因为看不清出口标志而原地打转、会因为群体恐慌而互相踩踏。这些恰恰是纯物理模型算不出来的东西，却是历史上大多数踩踏事故里真正致命的部分。

物理模型想象的人群 vs 灾难现场真实的人群

新一代仿真的思路是把系统拆成两层：" 物理层 " 继续负责碰撞、力学这些传统计算机图形学擅长的事，" 认知层 " 则交给大语言模型驱动的智能体，去处理判断、犹豫、恐慌、信息不对称——这套 " 物理—认知分离架构，本质上是给虚拟人群配了一个会犹豫的 " 脑子 "，而不只是一具会跑的身体。过去一年里，至少有四组独立的研究，分别从 " 决策 "、" 身体 "、" 规模 "、" 个体精度 " 四个不同角度，往这套架构里填内容。

" 物理—认知分离 " 架构示意

四个真实案例，四种做法

卡内基梅隆大学：从 100 人到 13000 人的毕业典礼预案

这项研究由 CMU 计算机学院的 Yuxuan Li、Sauvik Das 和 Hirokazu Shirado 三人主导，和学校应急管理团队做了一项历时 16 个月的迭代设计研究，目标是给学校真实的毕业典礼疏散预案提供参考。系统经历了五轮迭代：从 100 个智能体的小规模验证，扩展到 500、3000，最终做到 13000 个智能体——这个数字直接对应了这所学校毕业典礼的真实人群规模。研究团队没有一上来就做大规模仿真，而是花了很长时间先解决 " 应急管理人员愿不愿意相信一个 AI 模拟结果 " 这个更基础的问题：论文标题里用的说法是" 从不信任到信任 " 的转变过程，这本身说明，这类系统的门槛不完全是技术门槛，也是一个组织信任建立的过程。

Figure 4：真实毕业典礼人群动力学与模拟结果对比

论文里有一张图（对应上方 Figure 4）把真实毕业典礼的人群动力学数据和模拟结果做了对比，另有一张图画出了不同疏散方案下的累积疏散进度曲线。

Figure 5：不同疏散方案下的累积疏散进度曲线

最终，这项为期 16 个月的合作产出了三条具体建议，已经被写进了学校真实的标准操作流程（SOP）——这是目前四个案例里，唯一一个已经从 " 论文里的 demo " 变成 " 真被写进制度文件 " 的例子。

天津大学 + 卡迪夫大学 + 清华大学：地铁火灾里的 " 身体 "

这个叫 RESCUE 的系统由天津大学教授李坤（国家优青、天大智能与计算学部三维视觉研究组负责人）牵头，联合卡迪夫大学、清华大学团队完成，解决的是另一个问题：光有 " 会决策的脑子 " 还不够，虚拟人还得有一具 " 物理上可信 " 的身体——推挤时手臂会不会真的碰到别人、摔倒姿态自不自然、不同体型的人跑起来速度是否符合真实生理数据。

RESCUE 项目：个性化、物理合理、三维自适应的在线人群疏散模拟

团队在项目主页上还放了一段实际的 demo 视频（imgs/demo_4201.mp4），可以看到虚拟人群在拥挤中推搡、摔倒、爬起来继续跑的连贯过程，这是目前四个案例里唯一能看到 " 动态演示 " 而不只是论文截图的一个。

RESCUE 论文：24 个身体部位碰撞受力可视化

团队做了一个个性化步态转换器，可以实时计算 24 个身体部位在拥挤碰撞中的受力情况（上图），论文附带的定性对比结果和消融实验显示这套方法比过去的疏散仿真更贴近真实人群录像，团队还专门统计了不同类别人群（老人、儿童、成年人）在拥挤状态下的速度分布箱线图，用来验证模拟出的个体差异是否符合真实生理数据。这项工作已被计算机视觉顶会 ICCV 2025 接收，项目代码和主页已经公开。

清华大学：把智能体放进一整座城市

如果说前两个案例是 " 事件级 " 的模拟，清华大学电子工程系李勇教授团队做的 AgentSociety 做的是 " 城市级 "：论文 16 位作者名单里，Jinghua Piao、Yuwei Yan 等为共同一作，李勇是通讯作者。论文摘要里写的数字是，给超过一万个智能体生成完整的社会生活，累计产生了 500 万次互动。

AgentSociety 论文 Figure 2：总体框架图

这套系统被用来跑过好几组社会实验，其中一组专门模拟飓风等外部冲击下的城市反应，另外几组则用来看社交媒体上极端信息传播、无条件基本收入这类政策变量如何影响一整座虚拟城市的行为分布。这意味着，同一套底层技术，既能拿来算一场毕业典礼怎么疏散，也能拿来算一场飓风来了以后一整座城市会不会乱——从单一场馆到整座城市，验证难度是指数级上升的，这也是后面 T ö rnberg 那波质疑最主要针对的规模区间。

AgentSociety 论文 Figure 10：大规模社会模拟引擎系统架构

斯坦福：AI 分身能有多像你

前三个案例都在解决 " 怎么让一群虚拟人看起来像真人在逃命 "，斯坦福 HAI 这项由博士生 Joon Sung Park 主导的研究问的是更基础的问题：AI 分身到底能在多大程度上准确预测一个具体真人会怎么做决定。团队招募了 1052 名具有全美代表性的受试者，先做两小时深度访谈，再结合社会调查量表（GSS）、五因素人格测试、五种行为经济学博弈实验，最后比较 AI 生成的 " 数字分身 " 和真人本人两周后重新作答的结果有多接近。结论是：结合访谈和问卷数据的智能体，复现真人自己两周后重复作答的准确率达到 0.86，比单纯依赖人口统计学变量的传统方法明显更准，也明显减少了按政治立场、种族、性别分组时的预测偏差。

Park 在斯坦福 HAI 的采访中说得很直接：" 这些语言模型其实是在扮演它刚刚采访过的那个人。"（The language model is trying to role-play as the person it just interviewed.）他认为访谈数据比单纯的人口统计标签更关键，因为 " 访谈数据的好处在于，它包含了每个人的独特之处，语言模型因此不会那么频繁地做出基于种族的笼统概括 "。他也把这项研究的野心说得很明白：" 我确实认为，现在有很多社会问题我们没能很好解决，而这个测试平台可以让它们变得更容易应对，气候变化、疫情政策这类 ' 棘手问题 ' 都需要极其复杂的规划和条件推演。" 这项研究的价值在于，它给 " AI 分身到底有多可信 " 这个问题提供了一个可以量化的基准线，而这条基准线，正是前面几个逃生仿真系统能不能被信任的地基。

泼冷水的人：验证才是真正的难题

如果只听这四组研究者的说法，这项技术的发展轨迹会显得异常顺利——从 100 人到 13000 人，从单一场馆到一整座城市，准确率还能量化到 86%。但阿姆斯特丹大学计算社会科学副教授 Petter T ö rnberg 和合作者 Maik Larooij 在一篇题为《大语言模型解决了基于智能体建模的问题吗？》的批评性综述里，给这条乐观叙事泼了一盆冷水。他们论文摘要里的原话是：

"We argue that there are reasons to believe that LLMs will exacerbate rather than resolve the long-standing challenges of ABMs. The black-box nature of LLMs moreover limit their usefulness for disentangling complex emergent causal mechanisms."

—— Larooij & T ö rnberg, arXiv:2504.03274

他们提出的第一个问题是黑箱性质：" 大语言模型从根本上是黑箱模型……几乎不可能确定为什么某个特定输入会产生某个特定输出。" 更麻烦的是，同样的输入在不同次运行里可能给出不同的输出，这直接威胁到科学研究最看重的可复现性。第二个问题是偏差与刻板化：" 模型经常错误地表征群体及其特征，经常表现出夸张的刻板印象 "。第三个问题是幻觉和分布外场景下的失控：" 在历史上没有先例的场景中，模型行为可能变得不稳定 " ——而灾难现场，恰恰经常是 " 历史上没有先例的场景 "。

T ö rnberg 团队给出的核心诊断是："验证仍然是核心挑战 "，而且 " 加入大语言模型，恶化而非解决了这个问题 "（"the addition of LLMs exacerbates rather than resolves this issue"）。他们认为，目前很多研究依赖的是 " 表面效度或者只是松散关联底层机制的结果指标 "，这让这类模型 " 占据了一个模糊不清的方法论位置 " ——听起来很像科学，但既不完全是传统的基于规则的仿真，也不是被充分验证过的统计模型。

这个批评并非无的放矢。就连专门做 " 数字分身 " 验证的斯坦福团队，也在论文里承认自己的方法存在局限；另一项研究疫苗犹豫政策模拟的论文里，作者们同样明确写道 " 这项早期探索不旨在提供确定的政策指导 "，并且发现不同大模型之间的表现差异巨大，部分模型的偏差能超过 20%，这背后正是 " 预训练数据偏差 " 在作祟。换句话说，连身处这个领域内部、真心想把这件事做成的研究者，也在论文的角落里，写下了和 T ö rnberg 遥相呼应的保留意见。

三层商业价值

把这四类研究串起来看，能看出一条清晰的商业化路径，一共三层，风险随层级依次升高：

第一层 · 应急管理 SaaS 工具：把 CMU 那样耗时 16 个月的定制研究，做成学校、体育场馆、地铁站可以直接调用的标准化预案生成服务。

第二层 · 城市数字孪生行为层：AgentSociety 这类城市级模拟可以让数字孪生从 " 看得见的建筑物理模型 " 升级成 " 算得出人会怎么反应的社会模型 "。

第三层 · 保险风险定价：如果一套系统能相对准确地模拟出某个场馆在特定人群密度下的伤亡概率分布，这本身就是一种可以被保险精算模型直接使用的数据。

但按照 T ö rnberg 的批评，这三层商业化里，越往后风险越大：SaaS 化的预案生成工具，出错了大不了是建议不够好；但如果保险公司真的把一个尚未被充分验证的黑箱模型的输出，直接喂进精算定价模型，一旦模型在某个 " 没有先例的场景 " 里悄悄失控，代价可能是系统性的。

图：逃生模拟技术的三层商业化路径

别高兴太早：三个具体风险

结合 T ö rnberg 的批评和四个案例本身暴露的问题，至少有三个风险值得单独拎出来。

逃生模拟技术的三个具体风险

第一个风险是 " 模型太平均 "。大语言模型的训练数据本质上是海量人类文本的统计平均，这意味着它扮演出来的 " 虚拟人 "，行为上很容易向 " 最常见的反应 " 收敛，而真实灾难现场的极端个体行为——比如某个人因为特殊心理创伤而做出完全反常的举动——恰恰是最容易被模型 " 磨平 " 的部分，而这些极端个体行为往往又是伤亡集中发生的地方。这正好对应 T ö rnberg 说的 " 夸张的刻板印象 " 问题的反面：不是刻板印象太夸张，而是个体差异被抹得太平。

第二个风险是 " 微观可信、宏观失真 "。斯坦福的研究证明了单个数字分身在特定任务上可以做到 86% 的还原度，但这不代表几千个这样的分身放在一起模拟一场疏散时，群体层面涌现出的踩踏、拥堵、次生恐慌这些宏观现象也同样可信——微观精度和宏观涌现是两个不同量级的验证问题，这恰恰是 T ö rnberg 那句 " 验证仍是核心挑战 " 想说的事情：目前没有哪项研究能证明两者可以简单叠加。

第三个风险是 " 过度对齐导致失真 "。大模型在训练过程中被反复调教得 " 安全、礼貌、避免过激反应 "，但灾难现场里恰恰需要模拟出违规、非理性、甚至攻击性的人类行为，一个被安全对齐磨平了棱角的模型，很可能天然地低估真实人群的混乱程度和恐慌烈度——这也是一种分布外失控，只不过失控的方向不是 " 太混乱 "，而是 " 太乖 "。

结语：问题变了

从 AI 小镇到今天，这项技术真正的进步不是让虚拟人 " 看起来更像人 "，而是让研究者开始问一个更尖锐的问题：这些虚拟人在最坏的那几分钟里，还像不像人？

派对上像不像人，考验的是语言和社交表现；火灾里像不像人，考验的是在信息缺失、极度恐慌、生死攸关的状态下，会不会跟真人一样做出误判、跟风、甚至互相伤害。

CMU、天大、清华、斯坦福这四组人，正在用各自的方式回答 " 能不能做到 "；T ö rnberg 这样的批评者，则在提醒所有人先回答 " 你怎么知道它做到了 "。这才是 " 逃生模拟 " 和 "AI 小镇 " 之间真正的分野，也是这项技术接下来能不能被应急管理部门、保险公司真正信任并投入使用的关键。

但不管这些系统能做到多精确，最后按下疏散指令、决定是否相信模拟结果的，终究还得是人。

参考资料：

1. CMU 应急疏散研究：arXiv:2509.21868（作者：Yuxuan Li, Sauvik Das, Hirokazu Shirado / CMU）

2. RESCUE 地铁疏散系统：arXiv:2507.20117｜项目主页｜演示视频｜GitHub（负责人：李坤 / 天津大学，ICCV 2025）

3. AgentSociety 城市级模拟：arXiv:2502.08691｜项目文档（通讯作者：李勇 / 清华大学）

4. 斯坦福数字分身研究：arXiv:2411.10109｜项目页｜GitHub｜Joon Sung Park 采访原文，Stanford HAI

5. T ö rnberg 批评性综述：arXiv:2504.03274《Do Large Language Models Solve the Problems of Agent-Based Modeling? A Critical Review of Generative Social Simulations》（Petter T ö rnberg, Maik Larooij / 阿姆斯特丹大学）

6. 疫苗犹豫模拟局限性讨论：arXiv:2503.09639

7. 2023 年 "AI 小镇 " 原始论文：arXiv:2304.03442《Generative Agents: Interactive Simulacra of Human Behavior》