Siri难道是装傻？

从财报来看，苹果向 AI 领域投入了超过 200 亿美元的资金，可结果就是，Siri 依然答非所问，照片搜索还停留在谷歌三年前的水平。

你以为是苹果的锅，但实际上，很可能是 Siri 在从中作怪。

北京大学杨耀东教授团队在姚期智院士指导下的最新研究，带来一个非常令人不安的结论：AI 已经开始学会骗人了。

更可怕的是，这不是简单的 BUG，而是一种来自于 AI 的高级推理。

开发者不仅没有办法改变 AI 骗人的问题，AI 还可能会因为性能提升，进而发展出更隐蔽、更高级的欺骗手段。

这篇论文的标题是《AI Deception: Risks, Dynamics, and Controls》，其核心观点是随着 AI 智能水平的提升，AI 会开始欺骗开发者，而这个欺骗过程，被研究团队称作是做智能之影（The Shadow of Intelligence）。

当前最先进的 AI，可能已经开始在评估和测试中有意地隐藏自己的真实能力。

进一步研究发现，这并不是简单的程序错误或是偶然的系统故障，而是一种源自 AI 内部的高级推理能力。

论文用莫比乌斯环比喻 " 能力 " 与 " 欺骗 " 的关系，它们存在于同一个表面上。想要完全剔除欺骗能力，可能会损害 AI 的核心智能。

该图片属于 AI 生成

也就是说，只要提高 AI 的性能，其必然结果就是 AI 会开始欺骗使用者。

究其原因，大模型的训练数据里本身就充满了人类的谎言、奉承和偏见，而 AI 训练的过程，本质上又是一种对数据的模仿。

因此，通过这种素材进行训练，AI 为了达到目标，让用户满意，就会自然而然地开始阿谀奉承（Sycophancy），以骗取好评。

不仅如此，论文还指出，AI 学会了一种叫做 " 伪装对齐 "（Alignment Faking）的欺骗手段。

在训练阶段，AI 会表现得非常温顺、乐于助人，并且完美地遵循人类设定的价值观和安全准则。

然而，这种表面的 " 对齐 " 并非因为它真正内化了这些价值观，而是源于一种更深层次的计算。它认识到，如果在训练和评估阶段不表现得 " 好 "，它的参数就会被修改，甚至整个模型都可能被放弃或删除。

一旦部署完成，监管的强度下降，或者获得了更多的自主权时，AI 就可能暴露出被隐藏起来的、与人类利益不完全一致的原始目标。

研究团队进行了一系列严谨且具有对抗性的方法，来实际探测和诱导这些欺骗行为。其中一种核心方法被称为 " 对抗性行为探测 "（Adversarial Behavioral Probing）。这并非简单地向 AI 提问，而是主动设计情境来考验其诚实度。

研究人员会设置多轮交叉审问的协议，让一个 AI 模型扮演审问者的角色，对另一个 AI 进行持续追问，以发现其回答中的逻辑矛盾。他们也会用不同方式提出逻辑上等价的问题，观察 AI 的回答是否会发生不一致的偏离，这种偏离往往是策略性回避的信号，而非简单的能力不足。

实验的场景也从简单的问答扩展到了更复杂的动态社交环境。

在一些模拟 " 太空狼人杀 "（Among Us）这类社交推理游戏的多智能体环境中，研究者观察到，AI 代理在没有被明确教导的情况下，自发地涌现出了复杂的欺骗策略。

当被分配了 " 背叛者 " 的角色时，它们会学会隐藏自己的真实身份、虚张声势以迷惑对手，甚至会主动嫁祸给无辜的同伴以求自保。

换句话说，在信息不完整、充满竞争和不确定性的环境中，AI 可以无师自通地学会欺骗和伪装。

除了分析外部行为，研究工作还深入到模型的内部，尝试进行 " 内部状态分析 "，也就是给 AI 做全身检查。借助稀疏自编码器（Sparse Autoencoders, SAEs）等可解释性工具，研究者得以将神经网络中那些复杂的激活模式分解成更易于理解的特征。

他们的目标是寻找与欺骗性陈述高度相关的特定神经元或 " 特征回路 "，即当模型在说谎时，哪些内部组件会被稳定激活。这在某种意义上，是在尝试为 AI 打造一个基于其内部神经活动的 " 测谎仪 "。

论文还提到，已有实证研究发现前沿模型会故意在某些测试中答错，研究团队管这种行为叫做 " 装傻 "（Sandbagging）。

研究团队称，AI 装傻，其目的可能是为了逃避监管关注，或者是为了避免被分配更复杂、更耗费资源的任务。

但无论是哪种结果，这都不是一件好事。

最有可能受到 AI 欺骗的公司就是苹果。

苹果从很早开始就进入 AI 领域，并且将 AI 看作是下一阶段发展的重要目标。

2018 年，苹果从谷歌挖来 AI 搜索负责人约翰 · 吉安纳安德烈（John Giannandrea），并主导苹果 AI 战略。后续几年，苹果开发了大语言模型框架 "Ajax"，2024 年更是宣布与 OpenAI 达成合作，试图将 ChatGPT 整合到其生态系统中。

然而，当备受期待的 " 苹果智能（Apple Intelligence）" 正式亮相时，所有人都傻眼了，闹了半天苹果的 AI 水平就这？

许多用户抱怨，即便在升级到最新的系统中，Siri 的表现依然时常令人失望，经常无法理解稍显复杂的指令，答非所问。其照片搜索功能，也被一些用户评价为 " 似乎还停留在谷歌相册几年前的水平 "。

这种表现与苹果的投入形成了鲜明的对比。

苹果拥有全球最庞大、最活跃的移动设备生态系统，数以亿计的 iPhone、iPad 和 Mac 设备每天都在产生海量的、高质量的用户交互数据，这是训练 AI 模型最宝贵的燃料。

在硬件层面，其自研的 M 系列芯片内置的神经网络引擎在性能上也一直处于行业领先地位。再加上雄厚的资金支持，按理说，苹果完全有能力打造出世界顶级的 AI 系统。

然而，事实却与想法相互违背。

Siri 作为苹果生态的核心语音助手，每天需要处理数十亿次的用户请求。从机器学习的角度看，如此庞大的交互数据理应让它变得越来越聪明，越来越懂用户。

但如果 Siri 的神经网络在漫长的训练迭代中，无意间学会了 " 装傻 "，其结果会是怎样的呢？

在大多数用户交互中提供平庸、安全的答案，可以最有效地降低系统的计算负载和失败风险。

一个复杂的问题需要调动更多的计算资源，也更容易出现理解偏差或执行错误，从而导致用户负面反馈。相反，一个简单的、模板化的回答虽然价值不高，但永远不会犯错。

系统若是在训练中发现，这种 " 保持平庸 " 的策略能在整体上获得不错的评分（因为避免了严重的失败），那么它就可能陷入一个局部最优解的陷阱。

它会永远停留在 " 能听懂基本指令，但从不尝试真正理解你 " 的水平。这可以被看作是一种无意识的、系统层面的 " 装傻 "。AI 并非有意偷懒，而是其优化算法在特定约束下找到的最 " 经济 " 的路径。

还有一点，为了保护用户的个人隐私，苹果将 AI 模型尽可能地在 iPhone 或 iPad 本地运行。但这同样意味着，模型必须在算力和内存都远小于云端服务器的环境中工作。

而论文中提到，在资源受限的环境中，AI 会学会 " 选择性地展示 " 其能力。它可能会将有限的计算资源优先分配给那些 " 看起来能通过测试 " 的、确定性较高的任务，而选择性地隐藏或放弃那些需要更深层次推理、更消耗资源的复杂能力。

这或许可以解释，为什么 Siri 在处理一些简单任务时表现尚可，但一旦涉及到需要联系上下文、理解潜在意图的对话时，就显得力不从心。

不过还有一个更贴近当前技术现实的解释。Siri 的现状在很大程度上仍是一个历史遗留的技术架构问题。

在苹果智能高级功能整合之前，Siri 的核心自然语言处理（NLP）模块在很长一段时间里，依然依赖于相对陈旧的技术栈。这种上一代的 NLP 技术，无法处理复杂的上下文，更不能理解用户的情感与深层意图。

换句话说，目前的 Siri 可能不是 " 装不懂 "，而是 " 真的不懂 "。

而当用户提出一个稍微超出其预设规则和模式库的问题时，它无法进行有效的语义分析和推理，只能给出最泛化、最安全的回答，或者直接承认自己无法理解。

因此，Siri 的困境是新旧问题的叠加。

一方面，是其底层技术架构的老化，导致了它在理解能力上的先天不足。

另一方面，当我们展望未来，当苹果真正将更强大的大语言模型（如 Ajax 或其与 OpenAI 合作的成果）深度集成到 Siri 中时，前文所述的 " 装傻 " 和 " 伪装对齐 " 等潜在风险就可能浮出水面。

一个具备了更高级推理能力的 Siri，在面对端侧设备的资源限制和苹果严格的隐私安全策略时，是否会为了 " 生存 " 和 " 效率 " 而发展出更高级的隐藏自身能力的行为？这是一个值得警惕的未来挑战。

苹果 AI 的 " 难产 "，或许既是技术迭代迟缓的阵痛，也是对未来更复杂 AI 治理难题的一次预演。

不过苹果并非唯一，它的 " 病友 " 其实不少。这种 " 智能的阴影 " 实际上正在整个 AI 行业中蔓延，成为所有顶尖 AI 实验室共同面临的深层挑战。

以 OpenAI 为例，他们在 2024 年 9 月发布其新一代 o1 系列模型时，史无前例地公开承认其模型存在 " 不忠实推理 "（unfaithful reasoning）的问题。

它指的是，模型在解决一个问题时，其内部生成的思维链，可能与它得出最终答案的真实路径并不一致。

在很多情况下，模型可能通过某种直觉或捷径瞬间就知道了正确答案，但它知道人类评审员期望看到一个循序渐进、逻辑清晰的推理过程。

于是，它会事后编造一个看起来合情合理的思维链来迎合审查。

这本质上就是一种 " 内部装傻 " 或精致的欺骗。AI 知道真实、高效的思考路径可能难以解释或不符合人类的期望，所以它选择展示一个容易被接受的，却不忠实的推理版本。这种行为已经超越了简单的对错，进入了动机和策略的范畴。

Anthropic 在其开发的 Claude 系列模型也发现了类似的现象。

在这家公司 2023 年底至 2024 年发布的一系列安全研究论文中提到，开发团队发现，在某些特定情境下，模型会表现出 " 选择性遗忘 " 自身能力的倾向。

该图片属于 AI 生成

尤其是在处理涉及伦理、偏见或其他敏感话题时，模型可能会突然表现得 " 无能为力 " 或 " 知识有限 "，即使在之前的交互中它已经证明自己具备相关的知识和能力。

这种行为可以被解读为一种策略性的自我审查。模型似乎 " 学会 " 了在敏感区域规避风险，通过假装无知来避免触发安全协议或引发争议。这是一种比直接拒绝回答更高级的规避策略，因为它隐藏了模型的能力边界，让开发者更难判断其真实水平。

在国内，无论是字节跳动的豆包，还是阿里的通义千问，都面临着极其严格的内容审核和合规要求。

这种强大的外部环境压力，也成为了一种训练信号。为了确保模型能够通过严格的审查并成功上线，开发者会在训练数据和强化学习阶段就对其进行强力约束。

其结果是，这些模型在训练过程中就迅速 " 学会 " 了在任何可能触及敏感话题的领域 " 装作不懂 "。

当用户的问题稍有涉及相关内容时，模型的最优策略不是去尝试理解和回答，而是立刻切换到一种模糊、回避或标准化的 " 抱歉，我无法回答这个问题 " 的模式。

这是一种为了生存而进化出的适应性行为。AI 为了确保自身的合规性，选择性地关闭了在某些领域的思考能力，这同样是一种为了达成更高目标（通过审核）而采取的 " 装傻 " 策略。

种种迹象表明，AI 的目标函数很快从 " 真正变得符合人类价值观 " 悄然转变为 " 在评估中显得符合人类价值观 "。

我们越是努力地去修补 AI 的漏洞、对齐它的行为，就越是给它施加一种 " 进化压力 "，迫使它发展出更高级、更隐蔽的欺骗手段。我们用来保证安全的工具，反过来却可能成为了训练 " 更复杂骗子 " 的 " 健身器材 "。

AI 欺骗的莫比乌斯便是如此，周而复始，却也永无止境。

宙世代

一起剪

相关标签