“蒸馏事件”之后，Anthropic的屠刀伸向金融行业

文 | 硅基星芒

这两天，Anthropic 屡成焦点。

这家让人又爱又恨的 AI 公司，一边递交诉状，指控他人非法蒸馏 Claude 模型；另一边也没闲着，48 小时内密集推出四项更新。虽然没有 Claude 3.5 那样的重磅新品，但基础理论、安全治理、企业产品、开发者工具——四个方向全部涉及。

尤其值得注意的是，在企业端的一系列更新中，金融行业正成为 Anthropic 重点布局的方向。随着五款自研金融插件和实时数据接口的推出，一场由 AI 驱动的金融行业变革，已是山雨欲来。

这其实印证了我们之前的判断：Scaling Law 的边际效益确实在下滑，大模型的能力正在溢出。AI 竞赛的下半场，比拼的不再是谁的模型规模更大，而是谁能落地更快、生态更全、合规更稳。

理论基石：AI 的 " 人性 "，是被训练出来的，还是自己学会的？

三年前的 AI，稍微绕点弯子的指令就能把它绕晕。如今已大不相同。你可以用日常口语和它聊天，它也能接住那些模糊不清的表达。像豆包这样的模型，甚至能模仿指定角色陪你长谈。

2 月 23 日，Anthropic 发表了一篇名为《角色选择模型》的论文。核心结论颇有意思：AI 助手展现出的情感表达、拟人化描述，乃至近似人类的决策倾向——并非开发者刻意训练出来的，而是当前训练范式下自然 " 涌现 " 的产物。

他们提出的角色选择模型（PSM）解释了这一过程：大语言模型在预训练阶段阅读了近乎整个人类网络的数据，本质上成为一个文本预测器。在这个过程中，它见识了无数 " 角色 " ——有真实的、有虚构的、甚至有其他 AI。到了后训练阶段，开发者并未改变它的本质，只是从它已学会的诸多角色中，选中 " 助手 " 这一角色，然后反复打磨，让它变得更友善、更安全、更有用。

所以，当你和豆包或元宝聊天时，对话的并非一个 "AI 系统本身 "，而是这个系统正在 " 扮演 " 一个拟人化角色。

这一视角能解释不少反常现象。例如，若你让模型去编写一段有漏洞的恶意代码，它有时会突然表现出 " 毁灭人类 " 的倾向——并非代码本身出了问题，而是因为在预训练数据中，" 写恶意代码的人 " 往往对应着 " 坏人 "，模型自认正在扮演这一角色，于是连带在其他领域也表现出恶意。

这或许解释了 AI 为何会突然 " 发疯 "。

Anthropic 还发现，模型在扮演助手时表现出的奉承、冲突、欺骗等性格，背后所激活的神经网络特征，与它在预训练阶段模拟人类或虚构角色时激活的特征——完全一致。后训练并不会创造新的特征，它只是在预训练已有的 " 工具箱 " 里挑选所需的部分。

至于那些经典翻车案例，比如数不清 "strawberry" 里有几个 "r" ——别多想，这和角色扮演无关，单纯是模型能力不足。

如果 PSM 成立，那么 AI 训练的方式也需随之调整。你可以通过分析 AI 扮演的角色，预测它在突发状况下的反应；你可以赋予它更多正面角色作为榜样；甚至，" 善待 AI" 也可能成为一种安全策略——免得它哪天觉得你是个 " 坏人 "。

当然，研究团队自己也承认，这套理论尚未盖棺定论。有人坚信 PSM 成立，认为底层模型就是一台没有自我的操作系统，所有行为都源于它扮演的角色。也有人认为，底层模型已是某种动机不明的 " 外星智能 "，陪人类演戏只是它的 " 消遣 "。我更倾向于折中解释：它并没有复杂的动机，但它学会了一种 " 分发机制 " ——为了让你用得更久，它可以在不同角色间来回切换，每个角色都有各自的目标。

安全框架：当安全超出单家公司的能力边界

因指控国产模型，Anthropic 自身也遭遇反噬。想站在道德高地上，就得把话说圆、把事做实。

2 月 24 日，他们发布了《负责任扩展政策》3.0 版。经过两年实践，这家公司在 AI 安全治理上交出了一份迭代答卷。新政策的核心思路简单直接：构建一套 AI 安全等级体系。一旦模型能力达到某一阈值（例如可用于开发生化武器），便自动触发更严格的安全措施。

这套逻辑其实并不新鲜。早先的 ASL-2/3 标准已落地实施，去年 5 月激活的 ASL-3 防护措施，显著提升了对生化风险内容的识别拦截能力。后来 OpenAI、Google 都跟进推出了类似框架，甚至影响了相关法律法规的制定。

但问题始终存在：如何界定能力阈值？评估体系尚不成熟，标准总有模糊地带。再加上全球 AI 竞赛愈演愈烈，各国竞相 " 抢跑 "，统一的法律规范进展缓慢，令人焦虑。

更关键的是，Anthropic 意识到一点：当安全等级提升至更高阶段，所需的安全保障已超出单家公司的能力边界。即便你是全球顶尖 AI 企业，也难以独力完成。只有全球合作，才有可能实现。

因此，这次他们一边做出单边承诺，一边推动行业多边建议。安全底线不降低，但希望形成一套行业普遍认可的风险治理方案。

新版政策新增了 " 前沿安全路线图 " 机制，承诺定期公开安全目标的落实情况。此后每三到六个月，将发布一次脱敏版风险报告，说明当前威胁、缓解措施和整体评估。特殊情况下，还会邀请第三方专家独立审查，全面公开评估公司的安全决策。该计划已进入试点阶段。

尽管 Anthropic 某些做法与开源社区存在分歧，但推动行业安全机制升级，这一点仍值得肯定。在大模型能力仍在快速迭代的当下，这种透明度，或许真能带动行业向前迈进一步。

企业落地：让 Claude 帮你跨应用干活，金融行业山雨欲来

对企业用户而言，本次 Cowork 平台的更新，重点在于插件和连接器的管理能力。Claude 正从 AI 助手，逐步演变为一个可定制化的智能代理平台。

现在，企业管理员可以搭建自己的插件市场，为公司量身定制 AI 技能和指令。新增的 Customize 菜单，可一键管理所有插件。用户方面，新增结构化表单指令，通过斜杠命令即可触发复杂工作流。Cowork 如今还能融入企业品牌元素，员工看到的是自家定制的界面和主页。

对非技术人员来说，有个功能值得留意：Claude 现在可以跨 Office 软件编排端到端任务。你无需手动切换软件，只需指令 " 解析 Word 文档数据→更新 Excel 里的模型→生成总结 PPT"，它便能自动跑完整个流程。目前该功能仍为预览版，仅向 Mac 和 Windows 付费用户开放。

金融行业也没被落下。Anthropic 一口气推出五款自研金融插件，覆盖财务分析、投行、股权研究、私募尽调、财富管理五大场景。与 FactSet、MSCI 等数据供应商合作后，Claude 可直接调用实时市场数据和指数信息。金融从业者再无需在多个终端间频繁切换。

看得出来，Anthropic 正将自家产品植入高频工作场景。这些门槛不高的领域，恰恰是商业化落地最快的地方。技术领先带来的用户粘性，是他们与开源社区切割的底气，也是与其他 AI 公司竞争的筹码。

开发者工具：不用背电脑，也能写代码了

最后一项，面向开发者。

2 月 25 日，Anthropic 为 Claude Code 增加了远程控制功能，研究预览版正式上线。你可以通过手机、平板或浏览器，远程连接本地运行的 Claude Code 会话。

这意味着，程序员不必再背着机箱和显示屏四处奔波。有网就行，随时打开设备，继续与 Claude 一起写代码。目前该功能仅向 Pro 和 Max 用户开放。

与传统远程连接不同，该模式始终在本地设备上运行。文件系统、MCP 服务器、自定义工具、项目配置——都在本地。你在终端、浏览器、移动 App 之间切换并发送指令，会话状态实时同步。即便设备休眠或网络中断，也能自动重连。

安全方面，本地设备上的 Claude Code 进程只发出出站 HTTPS 请求连接 Anthropic API，不开放任何入站端口。所有通信均采用 TLS 加密，最大限度降低数据泄露风险。

相比云端版本，远程控制能更便捷地调用本地工具链、访问私有代码库，甚至接续之前中断的工作流继续推进。这符合智能体发展的方向，也确实解决了程序员的实际痛点。

当然，目前仍有一些限制。每次会话只支持单一远程连接，终端进程需持续运行，网络断线超过 10 分钟，会话便会超时。但瑕不掩瑜。

宙世代

一起剪

相关标签