龙虾太火,OpenAI 也是动作不停——
前脚刚挖来龙虾之父,后脚又立马收购了一家新公司。
而且瞄准的还是颇让人在意的智能体安全问题。

据 OpenAI 公告,此次被收购对象为Promptfoo,一家专注于AI 安全与评测的初创公司。
稍一打听便知,这家公司在开源社区还是小有名气的——
其评测框架 Promptfoo 是 AI 应用评测领域最流行的开源工具之一,拥有 30 多万开发者用户,截至目前 GitHub 已斩获 11.2K star。
在被收购前,OpenAI、Anthropic、亚马逊等也都是它的忠实用户。
据 OpenAI B2B 应用 CTO 表示,随着企业将 "AI 同事 " 部署到实际工作流程中,评估、安全性和合规性成为基本要求。
因此,Promptfoo 也算是补齐了 OpenAI 在 " 龙虾安全 " 方面的关键一环。

而被 OpenAI 收购后,Promptfoo 也将继续保持开源。
谁是 Promptfoo?
公开资料显示,Promptfoo 成立于 2024 年,一共有两位创始人。
联创兼 CEO 曾任 Discord LLM 工程与开发者平台负责人,联创兼 CTO 曾任 Smile Identity(数字身份认证公司)工程副总裁及 AI 主管。

创立 Promptfoo 的初衷,仅仅是因为团队关注到:
人工智能系统日益复杂,而安全工具却未能跟上步伐。
于是他们决定从主流大模型之路中划开一道缺口,为开发者和企业提供一些 AI 安全检测工具,主打一个差异化竞争。
没想到,这一选择还真赌对了。
短短两年过去,这个至今不过23 人的小团队却取得了骄人战绩——
超过 35 万名开发者用过它家的产品,每月活跃用户达 13 万,财富 500 强企业中超过 25% 的团队(约 125 家)都在使用其产品。
而这份成绩单也让其获得了资本市场的认可。
其最新一轮融资官宣于 2025 年 7 月,当时由顶级风投 Insight Partners 领投、a16z 参投,Promptfoo 完成了 1840 万美元(约合人民币 1.27 亿)A 轮融资。

另据金融信息平台 PitchBook 数据显示,Promptfoo 自成立以来已融资 2300 万美元(约合人民币 1.58 亿),去年 7 月的融资使其投后估值达到 8600 万美元(约合人民币 5.92 亿)。
(注:以上不含此次收购交易金额,双方对本次交易均暂未披露。)
而能在短时间内获得如此用户规模和融资,核心还要得益于其产品——也就是我们开头提到的Promptfoo 开源评测框架。

这个框架要解决的是一个很多 AI 团队正在面对的现实问题:
大模型很好用,但很难测试。
在传统软件开发中,开发者可以通过单元测试、自动化测试来确保系统稳定运行;但到了大模型时代,很多团队往往只能靠不断试 prompt、人工查看输出的方式来调模型。
不仅效率低,而且很难保证上线后的稳定性和安全性。
而 Promptfoo 想做的,就是把 AI 应用测试变成一套标准化的工程流程。
具体主要包括以下几类能力:
一是自动化评测。开发者可以批量测试不同的提示词和模型,让系统自动评估输出效果。
比如下图就是 Promptfoo 在对比不同开源模型的性能:

二是 AI 红队演练。系统会模拟真实用户可能发起的各种攻击,从而提前发现 LLM 应用中的潜在漏洞,并生成完整的安全漏洞报告。

三是工程化集成。Promptfoo 可以直接嵌入开发流程,例如在 CI/CD 流程中自动运行模型测试、在代码提交时自动扫描 LLM 相关安全问题、将评测结果共享给团队等。
一言以蔽之,Promptfoo 试图把原本充满玄学的 " 调 prompt 和测模型过程 ",变成一套像软件测试一样可重复、可量化的工程体系。
从使用方式上看,它既提供网页可视化界面,也支持命令行工具(CLI),开发者可以直接在本地或服务器运行大规模评测任务。

Promptfoo 表示,其长期愿景是让这个框架成为 AI 领域的 " 标配工具 ",就像 CI(持续集成)在 DevOps 领域的地位一样不可或缺。
每次引入新模型、更改提示词或集成新工具时,系统都会自动对其进行评估与红队测试,并根据安全报告的结果,决定放行或拦截。
而在当下这个智能体时代,或者说 " 龙虾时代 ",Promptfoo 的作用肉眼可见地变得愈发重要。
事实上,从去年拿到 A 轮融资起,他们就开始将重心转向了智能体。当时他们观察到:
互联网正在为智能体进行重构。
具体表现为四大趋势:多智能体协作、MCP 成为标准协议、语音交互爆发、测试驱动开发。
基于此,Promptfoo 的使命也愈发清晰——从一个提示词评测工具,进化为智能体时代的安全基础设施。
而这,恰好符合 OpenAI 在 " 龙虾时代 " 的布局需求。
" 第一批养龙虾的人已经失眠了 "
关于 OpenAI 为什么选择在当下这一节点收购这样一家公司,答案其实已经不言自明。
归纳起来无非两点:
一是龙虾实在太火了,所有人都在抢着布局(OpenAI 自然也不例外);
二是大火之下,智能体的安全问题已经日渐变得刻不容缓。

龙虾有多火不用多说了,就说说这安全问题。
从著名删邮件事件开始,龙虾的风险就已经开始集中暴露。
说到底,问题并不在于模型本身,而在于龙虾这样的智能体拥有的权限实在太高。
过去的大模型,大多数时候只是负责生成内容。即便回答出现问题,影响也基本停留在信息层面——最多是说错话、答非所问,即所谓 " 出现幻觉 "。
但龙虾不一样。
为了真正完成任务,它们往往被赋予了大量真实世界的操作权限,什么访问邮箱、文档和数据库、什么调用各类 API 和企业工具……全都是你工作生活中最敏感、最核心的数字资产。
这也意味着,一旦出现误判或被恶意提示词诱导,问题就不再只是 " 回答不准确 ",而可能变成真实操作层面的失误。
这里面风险有多大,想必也不用多说了(也难怪很多人不敢用或者需要单独弄一台主机)。
个人尚且如此谨慎小心,更别说还有企业了。当越来越多公司开始把业务流程交给智能体时,这种风险无疑更是会被成倍无限放大。
恰在今天,微博热搜上出现了这样一个话题—— " 第一批养龙虾的人已经失眠了 ",说的其实就是上面这两点(当然着重还是强调安全问题)。

对此,且看 OpenAI 是如何破解的——
龙虾火,那就火速挖来龙虾之父 Peter Steinberger,而且 CEO 奥特曼顺势宣布大力进军智能体协作领域。

龙虾出 bug 惹祸(例如偷偷狂删 Meta AI 安全总监邮件),那就大笔一挥收购 Promptfoo 这样现成的智能体安全公司。
根据双方合作公告,Promptfoo 的技术将被整合进 OpenAI Frontier 中,后者是 OpenAI 专门推出的智能体创建和运行平台。
而被收购后,Promptfoo 也将和 OpenClaw 项目类似,继续保持独立运营,OpenAI 仅起到提供支持的作用。
对此,网友们也纷纷感慨,这次真的算是双赢了。
尤其在智能体时代,会自动执行任务的龙虾已经可以成为评测大模型的新工具——以前还能刷刷榜,但现在全都得 " 真刀真枪 " 上战场拼杀了。

嗯?让龙虾成为检验大模型真实能力的新工具,细想之下确实合理和巧妙。
你说呢?
参考链接:
[ 1 ] https://openai.com/index/openai-to-acquire-promptfoo/
[ 2 ] https://x.com/iwebst/status/2031053106071613513
[ 3 ] https://x.com/snsf/status/2031055866024120825
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
今天,你养虾了吗?
欢迎加入【龙虾养成讨论组】,一起交流养虾经验!扫码添加小助手加入社群,记得备注【OPENCLAW】哦~
一键关注 点亮星标
科技前沿进展每日见


