开源的风,终于是从大模型吹到了 Agent。
不要说线是歪的,因为通往 AGI 之路注定会有波折
前几天,字节跳动旗下的 Coze(扣子)平台开源了,给本就热火朝天的 Agent 赛道又加了波猛料。
大家别光顾着吃瓜看热闹,其实这背后在说一件事:时代变了。
以前大家比的是谁家模型更聪明,所以拼了命把训练参数做大、把基础模型做强。
但现在真正的战场,已经转移到了怎么把大模型用好、用到实处。
说白了,大家都已经不满足做个简单的 Agent,而是要看 Agent 平台怎么让 AI 既能稳定地调用各种工具,又能高效地跟外部世界打交道。
要聊明白这事儿,咱们得先看看 AI Agent 这几年是怎么进化的。
其实业界效仿隔壁自动驾驶的分级,也给 Agent 强度排了个 L1、L2、L3……
最简单的 L1 级别的 AI Agent,其实就是 3 年前火起来的以 ChatGPt 为代表的,一堆大模型对话助手,在这个程度,你也就只能把它当个聊天机器人、信息搜索库,谈不上什么生产力。
后来,它学聪明了点,学会了用些小工具,进化成了 L2 工作流助手。
L2 级别的工作流 Agent 就像个听话的学徒,你让它上网查个资料、算个数,它能照着你设定好的步骤一步步完成。
但说到底,还是得你这个当师傅的先把流程图画好,所以也没啥特别的。
真正让人兴奋的,是进化到L3 级别的推理型 Agent。
突出的代表就是年初爆火的 Manus,这也是让 Agent 有了自主思考和规划的能力。
这家伙已经开始像个独当一面的员工了,规划个旅游攻略、写个 PPT、做点论文草稿,分分钟把活儿安排得明明白白。
但问题来了,就好比人类的职场一样,专家员工再牛,也干不了一个团队的活儿,所以还是得靠人给一堆员工派活。
但这个过程的难度,压根不比你自己干来得轻松,可能活还没派完,你的 CPU 先被干烧了。
于是大家就想,能不能组个 Agent 团队,让 AI 来分配专业的 AI 干专业的事儿?
结果业界经过了各种各样尝试发现,这帮看起来牛逼得不行的 Agent 凑一块儿,根本没法合作!
因为你别看,现在单个 Agent 执行任务的成功率挺高,但只要组队,成功率就断崖式下滑。
一个流程里,每一步都有 95% 的成功率,听起来已经挺好的了吧,但只要跑上 20 步,整个任务的成功率就直接掉到 30% 了,是不是有你买足彩 1 串 6、1 串 7 那味儿了。
就在大家为这帮散装英雄一筹莫展的时候,前两天,360 集团正式发布的纳米 AI,好像给出了一种新思路。
纳米 AI,有些差友可能还不大熟悉,人家是红衣大叔周鸿祎 360 旗下的 AI 产品,最近升级成了 " 多智能体蜂群 ",还号称是全球唯一真正进化到 L4 级别智能体。
昨天,红衣大叔还特地开了场专场发布会,给大家好好聊了聊纳米 AI 如今的变化。
差评君也去听完了全程,然后还试用了一波,真觉得有点牛了。
我先不说其他的,就给你看一个纳米 AI 生成的视频。
差友们可以猜猜这个视频咱花了多少精力,写了多少提示词,后期调整了多少。
我来公布最终的答案,花的精力就是上传了一张火锅的照片,提示词不到 100 个字,后期完全没做任何处理,甚至在纳米 AI 生成视频的过程中,咱们还去找小发打了一把王者,游戏结束回来就看到了上面这个视频。
看视频效果的时候,背后站了一堆编辑部同事,全在怪叫 " 牛逼牛逼 ",发群里也像是误入藕花深处,惊起一滩 "666"。。。
当然了,我们也找了隔壁 Manus 做了个类似的视频。
尽管 Manus 调用了目前最顶级的 Veo3 视频生成大模型,但什么情节、故事都不存在的,纯靠着大模型的基础能力硬撑画面。
而且,就像昨天直播里周鸿祎反复提及的 " 短视频起号 ",纳米 AI 主打就是 "一句话生成大片"。
你还能用更简单的方法生成视频。
比如咱们常在影视剧刷到的介绍某个历史人物生平的视频,在纳米 AI 里,直接就有一个专门的 Agent 叫古人传记导演,你只需要说一句 " 于谦的一生 ",然后就什么都不用管了。
结果生成的质量也还是相当高。
说真的,这搁以前,在一些短视频账号起号阶段,制作类似质量的视频,一般是一个编导配 2-3 个剪辑花半天时间才能做出来,现在靠着纳米 AI,点几下鼠标十几分钟就有了。。。
而且,咱们这个是最基础的测试(其实是因为打王者,忘记调整细节了),两个视频完完全全都是纳米 AI 一手导演的。
而且实际执行过程中,你完全可以在视频风格、语音音色、最终脚本等等模块,进行调整修改,来帮助 AI 生成更好、更符合你需求的视频。
是不是已经觉得纳米 AI 有点东西了?
昨天直播里,他们还表示,纳米 AI 的多智能体蜂群能在一起连续工作 2 个小时,执行超过 1000 个步骤,处理 9000 万个 Token(相当于几千万个汉字)的信息量,中间不出错、不掉链子。
这个水平大伙可能有点晕,我就这么说吧,以 M 记为代表的 L3 级别的智能体,处理的 token 数一般只能在百万级,换算成生成视频,一般不超过 90 秒。
所以昨晚老周在直播间也放出话来:" 咱们就是目前唯一一个能做 10 分钟视频的 Agent。"
为什么纳米 AI 能实现 L3 到 L4 的突破呢?
其实是因为他们找了条多智能体并行的新路子。
简单来说,纳米 AI 有个超大智能体工厂,里面有 5 万个 L3 级别(也就是和 M 记同一级别)的 Agent 来满足你的各种需求。
如果你觉得这 5 万个都不行,也能自己再做新的 L3 级别 Agent 进去。
这么一来,你手底下就有几万个,未来还能越来越多的 Agent 帮你干活。
在 360 智能体工厂的基础,再加上纳米独创的 L4 技术,才有了史上最长的 10 分钟 AI 视频。
这套 L4 技术说白了,就是在纳米多智能体蜂群的平台里,给这帮平日里单打独斗的 Agent 们,加装了一套超级通讯系统和共享的作战指挥室。
除了有部门经理和项目经理互相调度,各个赛博牛马之间也不再有沟通障碍,所有智能体都在同一个频道里聊天,一个眼神就知道对方想干啥,再也不怕传话传歪了。
我们拿前面于谦的视频举例,我提示词只输入了 " 于谦的一生 "。
纳米 AI 能够自己思考我要的是啥,比如要的是历史人物于谦,不是德云社的大爷于谦。
然后根据这个思路一点点研究于谦的生平,编写文案标题和相应的分镜脚本,接下来,又会根据这些分镜生成相应的图片,再把图片生成视频片段,最后再像一个后期一样,把这些片段素材全部整合到一起剪辑成成片。
而且,在这个执行过程中,纳米 AI 能够最多支持 100 个工具同时调用。
你可别小看这个数字,之前 Manus 爆火的时候,网上对它的诟病最多的就是速度实在太慢,因为它作为 L3 级别的 Agent,只能一项命令一项命令的执行,调用上一个工具,完成需求,才能继续思考下一步怎么做,想清楚之后再调用下一个工具。
但纳米 AI 的多智能体蜂群完全能够做到边想边干,我这边还在调用工具进行配音,那边已经在想着调用大模型生成视频画面了,这也大大提升了 Agent 的执行速度。
不仅如此,更绝的是,纳米 AI 为了搞定步骤一多,Agent 容易出错雪崩的情况,还做了点安全冗余。
周鸿祎在直播时透露自家产品用了一套比较暴力的解决方式,那就是用 token 换正确率。
比如生成某段视频的分镜图片时,单智能体不是容易出错吗?
但纳米 AI 可以多智能体并行操作,那我每个画面都同时找三四个画手一起画,加一个把关的步骤,把生成失败、出错的剔除出去,保留正确的画面,这样就能大大提升成功率了。
当然了,尽管有了这些安全冗余,但 AI 还是会出错。
咱们在测试时,也出现了一次任务报错,但纳米 AI 人还怪好的,因为有些 Agent 任务出错了消耗的 token 可不退你,而纳米 AI 是全额返还的。
至于一些生成视频文字上的瑕疵、前后一致性还不是完美之类的问题,偶尔也还是会出现。
但那句话怎么说的,只要方向对了,走得再慢也是在一步步接近目的地。而类似大模型基础能力上不足,其实也是目前业内大伙们提升的方向。
而且,该说不说,咱挺认同纳米 AI 现在的这个思路的。
周鸿祎昨晚也说了,现在制作短视频其实是人人的刚需,你做什么账号能不做短视频,甚至发朋友圈也要 vlog 吧。
买书买课不如学会用 AI
那让 AI 最快成为人人都爱用的、能改变大家生活的方式,不就是在解决大家的实际需求吗?
强如大模型也得做一个 ChatGPT 的载体,才能在全球爆火,而 Agent 界的 ChatGPT 迟迟没出现,这也是为啥业界和用户之间有种割裂感。
啥公司都在说我们有 Agent,多牛多牛,但我一个普通老百姓,感觉根本用不到啊。
而且,纳米 AI 的一句话生成视频,只是他们选择的主攻点,实际上,你可以在 L4 级别多智能体蜂群里,根据自己的需求从 0 搭建专属自己的 AI 团队。
喜欢吃瓜的,可以做一个每天娱乐大新闻总结 Agent;喜欢体育的,可以做一个专属自己的体育报道 AI 天团。。。
昨天周鸿祎一直在强调,目前的大模型能力已经相当强悍,但出于各种原因,它真正的能力并没有完全展现。
在他看来,Agent 就是目前能够最大限度挖掘大模型能力的桥梁,而通过多智能体共同参与,就能很好地处理现阶段的一些人类需求,真正让人觉得 AI 牛逼。
说到底,AI 的未来,可能不取决于技术参数有多高、模型有多大,而在于它能不能像纳米 AI 这样,少谈点玄乎的概念,多做个好视频、写个好方案,可能更有用。
当 AI 不再是一个遥不可及的神,而是我们随时可以拉来组队干活、不知疲倦的赛博牛马时,AI 的下半场,才算真正开场了。
登录后才可以发布评论哦
打开小程序可以发布评论哦