智东西 07-18
ChatGPT Agent口碑两极化,Manus隔空对战:赢了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西 AI 前瞻(公众号:zhidxcomAI)

作者 | 江宇

编辑 | 漠影

智东西 AI 前瞻 7 月 18 日报道,今日凌晨,OpenAI 正式推出了 ChatGPT Agent,一个整合了网页交互、深度检索和代码能力的全新 "AI 助手形态 "。

从产品逻辑上看,网络交互工具 Operator 和深度信息检索工具 DeepResearch 不再分家,ChatGPT 内部出现了一个能够 " 查找 - 思考 - 执行 " 一体化的 Agent,用户能直接让 AI 跨网页、代码、个人数据源完成完整任务。

相较于 OpenAI 接连被挖角引发的舆论热度,ChatGPT Agent 的发布似没达到 " 革命性 Agent" 的期许,略显反应平淡。社区用户体验后褒贬不一,有人认为 " 初见 AGI 的雏形 ",但也有人指出 PPT 排版简陋、复杂逻辑易中断和幻觉等问题。

ChatGPT Agent 发布后,竞品 Manus 第一时间接招,放出 10 个实测案例,试图通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务,证明 ChatGPT Agent 在任务闭环和可视化交付上并不占优。

(图源:Manus X 平台)

回过头来看,ChatGPT Agent 在网页浏览、执行任务等多个测评中实现了 SOTA,在 " 人类的最后考试 "(Humanity ’ s Last Exam)测试中取得了 41.6 的高分。这一成绩证明了其能力,也同时需要进一步在真实场景中验证。

ChatGPT Agent 将首先向 Pro、Plus 和 Team 用户推出,Pro 用户每月可获得 400 次查询,其他付费用户每月 40 次。面向企业和教育用户的版本,预计将在本月底前上线。

目前,ChatGPT Pro 版的订阅价格为每月 200 美元,包含 Agent 和终端功能。相比之下,xAI 的 Grok 4 最新的 Agent 产品定价高达每月 300 美元,两者价格相差 1.5 倍。

一、一次 " 功能拼图 " 的交付,ChatGPT Agent 有哪些升级?

ChatGPT Agent 的定位可以简单理解为 " 把 Operator 和 DeepResearch 合并 ",并补上了一个 " 终端 " 和 " 图像生成 API" 的工具栈。

1、文本浏览器(DeepResearch 功能)负责批量搜索网页、阅读长文本;

2、可视化浏览器(Operator 功能)负责网页点击、拖拽和表单填写;

3、终端可以跑 Python 脚本、生成和分析文件(Excel 表格、PPT 幻灯片)和调用 API,甚至接入 Google Drive、GitHub 等外部数据;

4、图像生成 API 补足基础的可视化内容生成,可以为报告或幻灯片创建视觉素材。

这套 " 工具箱 " 搭载在一个虚拟机环境下,由经过强化学习训练的模型调度,能实现从自动检索、分析、生成文档,到最终下单、预约的完整闭环。

在发布演示中,OpenAI 选择了一个贴近生活的案例:用 Agent 帮用户策划一场婚礼行程。

婚礼策划实测(图源:OpenAI)

ChatGPT 团队提供婚礼网站链接,提出 " 帮忙推荐服装、选酒店、挑礼物 " 三个需求。Agent 先自动抓取婚礼时间、地点和着装要求,再查询天气并推荐适合的服装,随后跳转到 Booking.com 查找酒店选项,最后搜索礼物推荐。最终,Agent 生成一份 " 婚礼准备报告 ",按服装、酒店、礼物分类整理,附带来源链接和截图,完整交付给用户。

ChatGPT Agent 所生成的婚礼策划(图源:OpenAI)

二、Manus 隔空叫板:十大对比,功能对齐,体验分化

ChatGPT Agent 发布后,作为竞品的 Manus 第一时间在 X 平台发布多轮实测对比,主动 " 迎战 "。

从展示效果来看,Manus 通过可视化呈现、跨平台操作和交付形式展示了自身优势,试图证明其在任务闭环和最终输出上的完整度优于 ChatGPT Agent;相比之下,ChatGPT Agent 更多聚焦于基础信息检索和文本型交付,功能覆盖相近,但在交互体验上呈现出不同方向。

具体案例呈现:

1、案例 1:新加坡公司选址与政府资助

Manus 输出完整调研资料和资助方案 PPT,含生态概览、政策详情与图片;ChatGPT Agent 只生成基础幻灯片,缺少要点总结与可视化呈现。

(图源:Manus)

案例 2:高收入 FIRE 模型

Manus 完成包含城市生活成本、税务规划的完整 PPT,含关键图表和视觉元素;ChatGPT Agent 只列出基础生活成本清单,税务信息方面并不完善,且无投资策略或可视化分析。

(图源:Manus)

案例 3:三日网球行程制定

Manus 生成含每日日程、预算及订票链接的可视化行程卡片;ChatGPT Agent 输出纯文字行程,排版单调无整合。

(图源:Manus)

案例 4:旧金山 ACFR 财务表格

Manus 整理 2020-2024 年财务数据并生成可视化预算趋势 PPT;ChatGPT Agent 只生成无视觉呈现的财务表格。

(图源:Manus)

案例 5:电动车行业研究

Manus 制作 5 页完整 PPT,包含行业增速图表、旗帜等定制视觉元素;ChatGPT Agent 停留在信息收集,未完成 PPT 交付。

(图源:Manus)

案例 6:筛选 500 美元以下风衣

Manus 整理符合条件的商品清单并生成对比文档;ChatGPT Agent 只停留在电商页面截图,无完整输出。

(图源:Manus)

案例 7:英伟达估值建模(DCF 模型)

Manus 完成全流程,包括历史财务数据抓取、WACC 估算、现金流预测、敏感性分析和完整图表输出;ChatGPT Agent 仅停留在搜索公开年报信息,未完成建模和分析。

(图源:Manus)

案例 8:季度财报拆分更新

Manus 完成季度表格更新和 PPT 生成,ChatGPT Agent 只完成基础表格更新,无季度拆分和 PPT。

(图源:Manus)

案例 9:预订高评分寿司餐厅

Manus 全流程完成订座并返回确认页面,ChatGPT Agent 只完成基础餐厅信息检索,无预订动作。

餐厅预定成功界面(上)和 Manus 实操界面(下)(图源:Manus)

案例 10:查询机票并筛选优选航班

Manus 完成可视化航班票价对比卡片,ChatGPT Agent 仅展示网页搜索信息,无可视化总结和筛选逻辑。

(图源:Manus)

作为 " 参赛选手 ",Manus 的展示更侧重自身产品优势,ChatGPT Agent 实际效果如何,还需持续观察更多用户的真实体验反馈。

三、体验有惊喜也有槽点:效率在线,复杂检索还需人类兜底

社区实测也迅速给出了 " 褒贬对半开 " 的反馈。

X 平台用户用 Agent 在 20 分钟内完成了 FIRE 计划,称相同服务在人类顾问处花费可能高达 5000 美元。

ChatGPT Agent 首先查找了本地税收政策(温哥华),分析了用户的月均开支,测算出在 30 岁退休所需的储蓄金额,接着生成了投资组合建议,并梳理出用户此前未接触过的税务优化策略,最后构建了多个退休方案的对比情景,生成了一份完整的可下载 PPT 文件。

(图源:X 平台)

他还补充道,Agent 在生成电子表格和 PPT 上的能力最让人印象深刻,但整体结果与他用 Manus、Genspark 等其他 Agent 工具的体验 " 差异不大 "。在他看来,对没用过这些工具的大多数人而言,ChatGPT Agent 的能力 " 依然足够震撼 "。

(图源:X 平台)

不过,ChatGPT Agent 在社区的用户反馈中也暴露出不少实际体验上的短板。不少用户吐槽,在网页交互过程中经常出现卡顿或 404 错误,生成的 PPT 排版简陋、审美效果较差,遇到稍微复杂的逻辑需求时,任务流程也往往需要频繁中断和人工修正。

沃顿商学院教授、AI 研究者 Ethan Mollick 也分享了类似感受。他在 X 平台称,自己用 ChatGPT Agent 分析了 Kaggle 上的数据集,虽然 Agent 能够顺利完成分析流程并生成 PPT 和 Excel 文件,但初步结果中存在明显的数据异常。只有在他提供反馈后,Agent 才成功识别出问题并修正结果。

(图源:X 平台)

Agent 在执行流程上已经具备高效率,但在数据判断和逻辑把控上仍然离不开人类监督。

从跑分和社区反馈来看,ChatGPT Agent 擅长处理指令明确、路径清晰的任务,比如生成婚礼准备清单或根据财务数据制作 PPT,在这类标准化流程中,Agent 能够高效执行,显著节省人工操作。

但遇到模糊指令或需要开放式判断的任务,比如整理行业隐性趋势或挖掘未被报道的新闻线索时,Agent 往往难以给出有效结果,容易陷入 " 找不到 " 或 " 请明确需求 " 的反复循环。

四、跑分成绩亮眼:擅长流程跑通,难在开放推理

在数据测评上,Agent 模式在人文学科推理、金融分析、网页交互和电子表格四大维度上对 o3 有不同程度领先,最高实现翻倍提升。

ChatGPT Agent 在 " 人类的最后考试 "(Humanity ’ s Last Exam)评估中取得 41.6% 的最高分,相比 o3 无工具模式(20.3%)实现翻倍提升,在跨学科专家级问题上展现了推理与工具调用能力。

Humanity ’ s Last Exam(来源:OpenAI)

DSBench 聚焦数据分析类实际任务,Agent 在数据分析子任务中准确率达到 87.9%,显著高于 o3(64.1%),首次超越人类参考水平。在 DSBench 的数据建模子任务中,Agent 准确率达到 85.5%,优于 o3(77.1%)和 GPT-4o(45.5%),接近人类表现。

DSBench 数据分析任务与 DSBench 数据建模任务(来源:OpenAI)

SpreadsheetBench 测试 Agent 对电子表格的编辑操作,ChatGPT Agent 在直接访问 .xlsx 文件时,准确率提升至 45.5%,显著优于 Copilot in Excel(20.0%),但与人类水平(71.3%)存在较大差距。

电子表格任务(来源:OpenAI)

在投行分析师任务中,Agent 完成复杂财务建模的准确率达到 71.3%,大幅领先 o3(48.6%)和 DeepResearch(55.9%)。

内部投资银行分析师任务评估(来源:OpenAI)

WebArena 测试 Agent 在网页交互任务的操作能力,ChatGPT Agent 准确率达到 65.4%,超越 o3 和 CUA 模型,接近人类水平(78.2%)。

WebArena 网页交互基准(58.1%)(来源:OpenAI)

BrowseComp 用于评估 Agent 对长尾信息检索任务的处理能力,ChatGPT Agent 准确率达到 68.9%,比 DeepResearch 高出 17.4 个百分点。

复杂网页信息检索任务 BrowseComp(来源:OpenAI)

ChatGPT Agent 在 DSBench、SpreadsheetBench、BrowseComp 等流程化任务中表现亮眼,数据分析、表格编辑和网页检索准确率大幅提升,部分任务超越人类水平。各类型任务相较于 o3 模型,Agent 都实现了从 10% 到 30% 不同程度的提升。

结语:Agent 潮起,OpenAI 稳步迈进

ChatGPT Agent 的发布再次证明 Agent 赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力,正逐渐成为 Agent 产品进化的主流方向,但距离真正行业普及仍有不小距离。

这次,OpenAI 并没有交付一个 " 划时代 " 版本,仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说,ChatGPT Agent 值得体验,它确实让一部分琐碎事务可以交给 AI 代劳。但要说 AI" 重塑工作流 ",显然还为时尚早。OpenAI 还在路上,Agent 也还在半成品阶段。它是一场值得肯定的进步,但并不是一场值得兴奋的飞跃。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论