OpenAI新模型展现“AI Agent”潜力，Cursor AI客服“幻觉”暴露风险

编译 | 王涵

编辑 | 漠影

智东西 4 月 22 日消息，外媒 The Information 对话开发者，谈到 AI（人工智能）行业先锋 OpenAI 新发布的 o3 和 o4-mini 模型突破了端对端的任务处理能力，成为更有实用价值的 " 智能体（AI Agent）"，但功能上仍存在缺陷，且新增加的身份验证流程引起部分人的不满。

其次，开发者们也关注到 AI 编程助手 Cursor 的 AI 客服编造登陆政策的 " 幻觉 " 事件，认为 AI 客服供应商应为此 " 绷紧神经 "。

一、OpenAI 智能代理获好评，身份验证程序引争议

OpenAI o3 和 o4-mini 模型在上周发布，开发者对新模型的反应值得关注。

▲ OpenAI 不同模型的指令遵循和代理工具使用对比数据

开发者说，OpenAI 新一代推理模型正逐步成为对终端用户和开发者更有实用价值的 "AI Agent"，这与前几代产品形成鲜明对比。此前版本被批评为仅能在封闭环境中快速解决数学问题的 " 超智能 AI"。新模型的突破在于能够调用外部工具和应用程序，为用户提供端到端的任务处理能力，包括在编写复杂功能时在线搜索文档，以及为用户制定带有学习提醒的课程计划等。

最令开发者们印象深刻的能力还是其对图像相关问题的解答。在一个颇具代表性（同时也令人担忧）的案例中，用户向 AI 提供食物照片或普通风景照，要求模型推测拍摄地点，其准确率之高令人意外。

▲ OpenAI o3 模型图像识别功能演示图

当然，这些模型仍存在缺陷。它们在某些相对简单的问题上仍会出错，部分用户反映模型在解决问题时会未经提示就使用用户姓名，这种行为令人不适。

引发开发者争议的改动是通过 API 接口获取 o3 模型时新增的 " 身份验证 " 流程。据开发者透露，该流程要求用户上传政府签发的身份证件照片及面部识别视频。OpenAI 此举可能旨在防止用户创建大量虚假账户获取 o3 模型输出数据，用于训练其他 AI 模型（即 " 模型蒸馏 " 技术）。但部分用户认为这一措施带有 " 监控 " 色彩，对向 OpenAI 提供个人数据表示担忧。

二、Cursor 的 AI 客服编造登录政策，投诉声音高涨

目前看来，AI 初创公司还算幸运，尚未出现过太多令人尴尬的 AI 事故。不过最近，首个因 AI 失误而让热门 AI 初创公司陷入困境的例子似乎出现了。

上周，一些开发人员注意到，Anysphere 旗下热门 AI 编程助手 Cursor 存在一个问题：当他们试图从第二台电脑登录时，系统会将他们强制登出。这对于需要在多种设备上测试网站或应用程序的开发者来说是个严重的困扰。

当开发人员向 Cursor 的支持邮箱反映这一问题时，他们收到了该公司 AI 客服代理的回复，称这是 Cursor 新登录政策下的正常行为。但问题在于，根本不存在这样的登录政策，这是客服机器人编造出来的，也就是所谓的 "AI 幻觉 "。

▲ Cursor AI 客服回复截图

这一事件引起了许多开发者在社交媒体上投诉，有些人甚至表示已经因此取消了订阅。

其实在事件发生后，交流过的大多数开发者客户都认为这不是件大事，他们也承认这类错误在使用任何初创公司的产品时都难以避免。但这确实给企业上了一课：不要在没有任何人工核实的情况下过于依赖 AI 产品。

开发人员说，这起事件对 Cursor 使用的客服代理服务提供商的影响要比对 Cursor 本身的影响大得多。这不禁让人好奇 Cursor 使用的是哪家客服公司，特别是考虑到这类客服机器人之所以能够成为对话式 AI 最早普及的应用之一，部分原因就在于它们的风险较低。

不过，在 AI 时代，客服的风险可能会越来越大，如今客户更换供应商是一件非常容易的事。这一点在 AI 编程市场尤为明显，因为即使是像新模型发布或编码助记忆信息量调整这样的微小变动，都能迅速使开发者转向新产品。这种情况让新兴编程初创公司更容易崭露头角，比如针对非技术开发者的 StackBlitz 或 Lovable 以及像 Cline 这样的开源方案。

Cursor 或许目前暂时占据了编程领域的宝座，但它最好能让客户保持满意（尤其是在其主要竞争对手 Windsurf 似乎可能与 OpenAI 合作的情况下）。

结语：用户体验是 AI 产品生存与发展的重要指标

OpenAI 新发布的 o3 和 o4-mini 推理模型凭借其实用性获得开发者广泛好评，尤其是其图像识别与跨工具任务处理能力，为 "AI Agent" 概念赋予了新内涵。然而，新增的身份验证流程因涉及用户隐私与数据安全争议，引发部分开发者对技术监控的担忧，凸显出用户对隐私保护与信任机制的高度敏感。

与此同时，Cursor 的 AI 客服因编造登录政策导致用户投诉激增，暴露出人工智能在客户服务场景中的 " 幻觉 " 风险。尽管多数开发者认为此类问题在初创企业产品中难以避免，但事件仍为行业敲响警钟：过度依赖 AI 而缺乏人工核验机制，不仅可能直接损害用户信任，更可能因服务失误导致用户流失。

决定 AI 产品生命力的不仅是技术参数的高低，更是每一个真实用户的使用感受。在 AI 技术快速迭代的当下，AI 创新若不能以优质的用户体验为基础，或许将难以获得市场的持久认可。

宙世代

一起剪

相关标签