北京时间 7 月 18 日凌晨,美国科技公司 OpenAI 临时举行直播活动,发布通用人工智能代理ChatGPT 智能体。
ChatGPT Agent 具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,包括 Operator、 Deep Research 和 ChatGPT 来完成各种超复杂任务。
简单描述,这是一个融合 Operator 智能体网页交互能力、" 深入研究 "(Deep Research)功能的互联网信息搜集能力,以及 ChatGPT 对话能力的统一智能体。ChatGPT 不再只是问答机器人,还能通过 " 内置计算机 " 代表用户完成复杂的多步骤任务。
图片来源:直播视频
OpenAI 介绍称,ChatGPT 智能体能够通过互联网搜索或 API 获取数据,进行深入的财务研究、制作精美的幻灯片,或者预定活动或规划行程。
特别值得注意的是,在内部基准测试中ChatGPT 智能体展现能够处理入门级投资银行分析师(1-3 年工作经验)任务的能力,例如为财富 500 强公司构建符合准则的财务报表模型,或为私有化交易构建杠杆收购模型。
ChatGPT 智能体的产品经理 Neel Ajjarapu 表示:"这个模型实际上非常适合处理新人入行第一年或第二年财务分析类型的工作。这些任务过去可能需要一个人熬夜完成,尤其是在深夜被老板临时叫去处理的时候。"
在演示中,OpenAI 给出的案例是根据结婚请柬上的日期、地点和着装要求,搜索合适的男装和鞋子,并推荐礼物。
经过 10 分钟的努力,ChatGPT 智能体如期完成了搜索工作,并列出了所有推荐的商品,并附上推荐理由和链接。
在另一个案例中,ChatGPT 智能体被要求根据美国职业棒球大联盟赛程,规划一条在 2025 赛季常规赛期间,走遍全美 30 座大联盟棒球队的观赛路线,推荐酒店住宿,最后以电子表格的形式呈现并生成一张可视化路线图。
用户可以要求 ChatGPT Agent 分析三个竞争对手并制作幻灯片演示文稿等请求。ChatGPT 会智能地浏览网站、选择日期、筛选结果、运行代码,甚至自动生成经过润色的幻灯片演示文稿或电子表格。
也就是说你只需要一个提示,ChatGPT Agent 就会帮你完成所有工作等待结果就好。
技术架构方面,ChatGPT Agent 通过其虚拟计算机处理任务,能够流畅地在推理与执行之间切换。在面对复杂任务时,不仅能够进行逻辑推理,还能够实际执行任务,从而独立完成复杂的多步骤任务。
例如,当用户要求 ChatGPT Agent" 查看我的日历,并根据最新动态简要汇报即将举行的客户会议 " 时,能够理解任务需求,主动从日历应用中获取信息,并整理出简洁的汇报内容。
ChatGPT Agent 另一个重要功能模块是其多工具集成能力,将 Operator 的网站交互能力、Deep Research 的信息整合能力以及 ChatGPT 的深度对话能力融合在一起,形成统一的智能体系统。
此外,ChatGPT Agent 还配备了多种网络工具,包括可视化浏览器、文本浏览器和直接 API 访问权限。
OpenAI 会试图回避有关 "抢微软 PowerPoint、Excel 生意" 的说法,仅表示 AI 可以帮助人类生成初稿,然后再使用微软或其他公司的办公软件进行编辑。核心意义在于能减少人们制作演示文稿和分析所需的工作量,例如将数小时或数天缩短至 30 分钟。
对于全球股民高度关注的问题:能否让 ChatGPT 智能体自己拿着钱去炒股。OpenAI 表示这类操作暂时受到限制,主要考量是避免 AI 出错导致高额损失。同时ChatGPT 智能体在执行敏感或重要操作(例如发送邮件、购买商品、提交个人数据)时,会明确征求用户授权。用户在使用 ChatGPT 智能体访问金融网站时,将不能离开当前标签页,否则工具会停止运作。
在安全性方面,ChatGPT 智能体的设计也充分考虑了用户的安全需求。在执行涉及敏感或重要操作前,ChatGPT 会明确征得用户的授权,确保用户始终掌握控制权。此外,ChatGPT 智能体还具备主动监督和风险缓解功能,能够主动拒绝高风险任务,例如,金融交易或敏感法律互动。
根据 OpenAI 公布的测试数据显示,ChatGPT Agent 在多项测试中表现优异。在 " 人类终极考试 " 中,单次尝试通过率达 41.6%,取得新 SOTA 成绩,采用并行策略时分数提升至 44.4;在 " 前沿数学 " 基准中,准确率达 27.4%,大幅超越以往模型。
在 BrowseComp 基准中以 68.9% 的成绩创 SOTA,比深度研究高 17.4 %;在 WebArena 中表现优于由 o3 驱动的 CUA。
每日经济新闻综合 OpenAI 官网、公开资料
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦