7 月 18 日凌晨,OpenAI 发布了 ChatGPT Agent,这是继 1 月份推出 operator,2 月份推出 deep research 之后,OpenAI 在 Agent 化道路上又一关键举动。
当下,一个有趣的现象出现了:AI Agent 领域正悄然分化为两大流派。一方是以 OpenAI、Claude 为代表的 " 基座派 ",正在将 Agent 能力融入其底层模型;另一方则是 " 应用派 ",强调自己在具体的应用场景和灵活的工具调用上的设计规划。
3 月,Manus 的横空出世,便已点燃了通用 Agent 的第一波市场狂潮,随后,Genspark、Flowith、Fellou 等一众新锐玩家纷纷从不同应用场景切入,迅速在 Agent 赛道上形成了各自的阵营。
就在 OpenAI 发布 ChatGPT Agent 后不久,Genspark 便在社交平台 X 上公开 " 叫板 ",直言视频中演示的 ChatGPT Agent 能力 " 表现不够出色 "。Manus 也贴脸开大,对比了自己和 OpenAI 展示的案例的结果。
我们也想对比一下这些产品在 ChatGPT Agent 展示的一些案例上究竟表现有何不同。
你是一个成熟的 Agent 了,你该自己报道 Agent 的新闻了
首先,今天的 AI Agent 产品这么热闹,我们觉得它们也都是成熟的 Agent 了,应该来自己报道其他 Agent 的新闻了。
于是我们让几个备受关注的 AI Agent 产品来报道此次 ChatGPT Agent 的发布。我们并没有选择只是给一个很简单 Prompt 的方式,而是用类似深度报告的方式来要求它们,最终产出一个有些设计要素在的 one pager。
结果如下。
Manus:
有意思的地方是,Manus 的 Agent 自己分析之后,并没有像官方 X 账号那样 " 自信 ",给了 OpenAI 更高的分数。
Genspark:
生成了一个更复杂的报告。这个报告里对 OpenAI ChatGPT 的信息捕捉更全。
并输出了一份非常详细的对比。
同样,与官方 X 的 " 自信 " 也不同,Genspark 的 Agent 也对 OpenAI 的水平表达了高度认可。
Flowith:
Flowith 算是对我们比较长的 Prompt 做了充分理解后,抓住了要做一个 one pager 这个重点,这让它的结果看起来设计感也最强,交出了一个格式上更好看的 one pager。
比一比:从规划到执行的 " 最后一公里 "
在报道完 ChatGPT Agent 后,我们让这些 AI Agent 也拿 OpenAI 视频展示的案例练了练手。互相比较一下。
OpenAI 视频中提到了四个案例,主要是行程策划、图像设计类、资讯分析类,这也是自 3 月份 Manus 推出之后比较常见的场景。
我们先找了其中一个,婚礼规划的场景,把视频中展示的 Prompt 提交给了 Manus、Genspark、Flowith、Fellou 等,看看直接对比。
prompt:Our friends are gettingmarried later this year! This is the wedding website:https://www.zola.com/wedding/minniaandsarahCan you help me find:- An outfit that matches the dress code for all the functions ( mens ) - Propose like five options. Something nice, mid luxury items which match the venue, and weather- Find me hotels with couple of days of buffer on either end_-Use booking.com for these, and make sure to check availability and current price-And also don't forget to pick a gift for them ideally under $500 ( registry preferred if any, otherwisefind something nice ) make a nice report!
Manus:
https://manus.im/share/iWutNt1yTVXu8ZUTuz6YVQ?replay=1
Manus 输出了一个长文本页面,没有给到具体购买链接等涉及到下一步行动的结果,属于婚礼参加指南和建议。
特别是着装要求上,没有具体的图片和款式。
Flowith:
同样给出了一份详细的婚礼参与指南,无法进行到下一步加购等动作,更关键的是,因为单开了一条任务线来挑选参加婚礼的服饰,该任务线出现 bug,最终没能输出服饰结果。
Fellou:
Fellou 居然为这个任务一口气跑了 1 小时 14 分钟。这是一个很有意思的不同,OpenAI 此次发布后,它的研究员也提到,应该有一个榜单来比较 AI Agent 一次任务能够跑的时长。
当然,这个时长和最终效果之间的关系也需要进一步查看。但 Fellou 这个操作还是给用户带来某种微妙的 " 靠谱 " 感。
这个过程它非常认真的单开了很多浏览器,比较行程、路线、酒店事件和日期。
最终它把信息用一种经过简单设计的格式,提供给用户。
但是在具体推荐上,同样无法直接购买,没有具体链接,只能输出报告,更像是一个搜集信息的 AI 浏览器。
https://chat.fellou.ai/report/0d853b10-fcd0-4c22-a1f2-696556c8f277
第二个我们选了 " 做贴纸 " 的场景。
prompt2:Make some team swag for our launch of chatgpt agent - makesome anime-style art that'scute and quirky based on theattached photo of our teammascot. then, make them into.1x1 laptop stickers and order 500 to 575 Florida St in SF.I like StickerMule!
贴纸的设计在近三个月来各类 Agent 测试中算是非常简单的了,而且,很多产品,例如 Genspark 的任务,本身也是调取的 GPT 的生图能力。
不过同样的,和 OpenAI 展示的相比,多个产品在订购环节,因为没有调用能力,无法完成具体操作。
比如 Genspark 会提示:很抱歉,我无法直接为您完成在线订购,因为这需要您的个人信息、付款方式和账户验证。不过我可以为您提供详细的订购指导,让整个过程变得超级简单!
Flowith 同样只能进行订购指引。
在这个任务中,Manus 在流程中显示完成了购物车的添加,也是除了 OpenAI 以外唯一一个进行到这一步的 Agent。
可以看到,今天的 AI Agent 依然是在一个 " 混沌期 ",它能做到的事情,在不停让我们惊叹,而同时它也依然是不稳定的,哪怕 OpenAI,今天发布的 ChatGPT Agent 更像是一个占位动作。但当我们把 AI Agent 视作一个潜力巨大,价值巨大的方向,这些新的重要玩家的加入和更激烈的竞争,都是好事——它最终会推动一个能稳定地解决人类面对的复杂任务的 Agent 更早出现在我们的生活里。
登录后才可以发布评论哦
打开小程序可以发布评论哦