IT时报 04-16
“AI六小虎”首个IPO要来了!我们测了测智谱智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AutoGLM 沉思会成为潜力股吗?

作者/   IT 时报记者   孙永会

编辑/    潘少颖   孙妍

证监会网站显示,4 月 14 日,智谱披露 IPO 辅导备案报告,由中金公司担任辅导机构,预计今年 10 月完成辅导计划。智谱与百川智能、零一万物、月之暗面、阶跃星辰和 Minimax 被称为 "AI 六小虎 ",这六家是最早完成 10 亿美元以上融资规模的大模型创业公司。

这标志着,"AI 六小虎 " 首个 IPO 即将来临。

近期的智谱有些活跃,其智能体新品 AutoGLM 沉思亦受到关注和讨论。

据智谱 CEO 张鹏介绍,AutoGLM 沉思是首个集深度研究能力和操作能力于一体的免费 Agent,能一边思考,一边执行操作。它的技术演进路径为:GLM-4 基座模型→ GLM-Z1 推理模型→ GLM-Z1-Rumination 沉思模型→ AutoGLM 模型。其中核心链路的模型和技术,已于 4 月 14 日开源。

每个人心中都有一款理想的 AI Agent,在没有智能体之前,要完成一篇科普文往往要经过以下步骤:首先,搜索查找相关文章或书籍,厘清思路,完成文章大纲;其次,再根据大纲完成撰写和调整;最后还要在标题上下功夫,吸引眼球。

有了智能体后,这个扮演 " 助理 " 角色的 AI 能够帮助人们完成诉求,省心省力。

那么,智谱 AutoGLM 沉思的思考能力究竟如何?有科技博主用 " 一个肯干活、不摆烂但有点‘笨手笨脚’的实习生 " 形容它。《IT 时报》记者就多个场景进行体验和测试。

场景一

耗时约 5 分钟 完成旅游攻略

" 当前处于实验阶段,请实时监控 AutoGLM 沉思的每一步操作行为。" 在 PC 端让 AutoGLM 沉思执行任务时,页面显示的这句话似乎意味着它还 " 不太灵 "。

" 安排一个十天的西南自助游,路过重庆、贵州和四川,家庭三人行,给出大概的预算方案和小吃清单。"《IT 时报》记者首先让 AutoGLM 沉思完成一份旅游攻略,该智能体从全网搜索到给出具体的旅游方案,共耗时 4 分 15 秒。

" 我需要多轮搜索和深入阅读来完成这个任务。" 从思考过程来看,AutoGLM 沉思搜索了西南自驾游的基本路线和推荐景点、三个地方的主要美食、住宿选择和价格范围等。每搜索一次,它都会由浅入深地体现自身思考的次序和逻辑,比如呈现初步获得的信息,再基于所得信息提炼关键点后进入下一轮检索。

就这份旅游攻略,它前后思考了 17 次,关键词搜索法是该智能体搜索的方式,例如 " 四川特色美食小吃 "" 贵州特色美食小吃 " 和 " 重庆主要景点和特色 " 等。便捷的地方在于,它会附上所参考的文章链接,以便使用者查看原文。

  点评

从攻略结果来看,整体较为完整,包括引言、行程概览、每日路线、总预算、小吃清单、注意事项和结语。一方面,AutoGLM 沉思追求面面俱到,经过多轮搜索后,展示充足的信息量;另一方面,能够标注原始出处和参考资料,让用户有章可循,而非 " 胡言乱语 "。但也存在待优化之处,比如思考的重复性和冗余度,让用户等待时间过久;其次方案虽然完整,但内容仅作简单罗列,在呈现形式上较为单一。较之于结果,思考过程似乎更具有参考价值。

场景二

分析剧集 重复性问题明显

除了制定攻略方案,AutoGLM 沉思 " 号称 " 还能够在金融、学术、创作和生活等方面提供自己的思考,其创作能力如何?

" 尽管夏天多变,日子还是会继续,被夏天台风吹垮的草和树,最终还是会再站起来…… " 近期热播的韩剧《苦尽柑来遇见你》金句频出。

" 请分析和研究韩剧《苦尽柑来遇见你》是如何表达和演绎女性角色觉醒的,提供一份剧评大纲,不要泛泛而谈。" 输入指令后,AutoGLM 沉思共计耗时 6 分多钟完成这个任务。

" 从百度百科信息可知 "" 从网易文章中了解到 " ……和前述的攻略制作一样,AutoGLM 沉思制定了一份研究计划,然后开启了多轮检索。每搜索一回,便会提炼和罗列获得的基本信息,然后再执行下一步操作,该任务的搜索次数达 13 次。

创作结果包括引言、女性角色设定与背景、女性角色的觉醒与成长、女性角色觉醒的表达与演绎,以及女性角色觉醒的社会意义和结语等方面。

AutoGLM 沉思的分析过程整体令人满意,例如它梳理了女主觉醒的具体表现,其一是对文学梦想的坚持,其二是对婚姻和家庭的自主选择,第三个方面是对子女教育的重视。此外,也分析了剧集如何进行叙事,如柑橘的 " 酸涩 " 隐喻、海女的形象象征等。整体来看,AutoGLM 沉思并非只提供一个结果,还有较具说服力的思考过程。

但显见的问题是,除了和做旅游攻略一样思考时间较长,它似乎还不太 " 听话 ",并未按照《IT 时报》记者的指令提供剧评大纲,只有一份分析结果。与此同时,无论是分析过程还是结果,逻辑感不足,重复性问题比较突出。比如在多达十余次的搜索中,会将相同或者相近的信息进行梳理和凝练,让人看起来有重复之感,时代和时间背景等信息也多次重复交代。在行文过程中,AutoGLM 沉思并不会注意某些内容的先后出场顺序,有 " 想讲什么就写什么,只要不跑题就行 " 的感觉。

场景三

电脑选购方案完整

推荐品牌较为单一

" 我想买一台 7000 元— 10000 元的笔记本电脑,为我设置一套选购方案,要有具体的品牌推荐。" 接到指令后,AutoGLM 沉思再度进入较长的搜索过程。

从搜索渠道来看,AutoGLM 沉思在不同网站上进行搜索,包括京东、淘宝等购物网站以及知乎、小红书等社交媒体平台,共搜索了 10 次,既包括选购要点、价格配置,还有品牌推荐的 " 集合 "。

最后,AutoGLM 沉思给出了一份较为全面的指南,包含笔记本电脑市场特点,汇总了今年全国已经上线国家补贴政策信息的地区。此外还有这一价位主流品牌的分析,比如联想、华硕等品牌。让人满意的是,它还把购买者分成游戏党、设计创作者、商务办公族等不同类型,提供个性化的选购参考,具有指引性。

较之于写剧评和制定旅游计划,AutoGLM 沉思给出的笔记本购买方案结果更令《IT 时报》记者满意,它起到了实际参考价值,比如消费者可以关注某一品牌、需注意国补等政策。但品牌数量比较局限,从结果来看,联想和华硕被多次提及,事实上,符合 7000 元— 10000 元的电脑品牌较多,最后呈现的效果应该更全面。

希望 AutoGLM 沉思的功能更加完善和优化," 沉思 " 时长更短,更具逻辑感,并降低重复程度。

排版/ 季嘉颖

图片/ 智谱

来源/《IT 时报》公众号 vittimes

E N D

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai ipo 辅导 旅游攻略 四川
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论