科创板日报 01-24
智谱、OpenAI“较上劲”!AI智能体又进化了:微信拜年、操作电脑不在话下
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》1 月 24 日讯(编辑 宋子乔) 春节将至,年味儿渐浓,AI 给出了拜年新思路,让 AI 智能体(AI Agent)送上春节祝福,一句话就能实现——

据自媒体测试,给 AI 下达 " 给群里所有人发送新春祝福语 " 的任务后,AI 为该微信群的各位定制了不一样贺词,且 " 细心 " 附上了对方名字,无需手动操作便完成发送。

用 GLM-PC 发定制化新春祝贺时 GLM-PC 的思考过程

这番操作出自智谱刚上线的电脑智能体 GLM-PC。

1 月 23 日,智谱正式上线 GLM-PC。据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样 " 观察 " 和 " 操作 " 计算机,协助用户高效完成各类电脑任务。GLM-PC 还推出了深度思考模式,并新增逻辑推理和代码生成功能。

2024 年 10 月智谱发布的手机版智能体 AutoGLM 火速出圈,跟手机端的 AutoGLM 不一样,GLM-PC 引入了代码机制,而在深度思考模式下,GLM-PC 接收任务后会生成一套非常详细的思维链,再去执行,代码式的思维链可进一步强化 GLM-PC 对复杂任务的规划、推理、和反思的能力。

目前,GLM-PC 的 Window 和 Mac 客户端已同步上线。智谱表示,正与联想、华硕等知名 PC 厂商展开深度合作探讨,共同推动 AIPC 的创新与发展。

晚些时候,OpenAI 的 AI 智能体 Operator 在北京时间 1 月 24 日凌晨亮相,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。后续的部分用户测试显示,Operator 还可以完成在 Arxiv 上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。

用 Operator 预定餐厅

用 Operator 买菜

与智谱的深度思考模式类似,Operator 可通过新模型 " 计算机使用智能体 "(Computer-Using Agent,简称 CUA)的系统进行复杂的思维链反思和步骤规划,CUA 结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正,大大提高了 Operator 完成任务的精度和复杂性。

目前,OpenAI 的 "Operator" 智能体以 " 研究预览 "(research preview)的形式向美国的 ChatGPT Pro 用户开放。(小 K 注:ChatGPT Pro 的订阅费用为每月 200 美元,该服务专为需要高级 AI 功能的专业用户设计,提供无限制访问包括 GPT-4o 和 o1 在内的高级模型)

OpenAI 表示还将扩展智能体的动作空间,在接下来几周 / 几个月内推出更多的智能体。此外,其还计划开放 API 接口,让开发者能够基于 CUA 构建自定义的计算机智能体。

2025 智能体元年?

OpenAI 总裁 Greg Brockman 为 Operator 打 call 并强调,"2025 年是智能体之年"。

OpenAI 曾被曝出内部 AGI 路线图,将这一终极目标的实现划分了五级。目前 OpenAI 正向 AI 智能体,即 L3 级迈进(代理者,可以采取行动的系统)。

2024 年,智谱同样将 AGI 的实现划分了 5 级。智谱 CEO 张鹏在 Agent Open Day 上再次阐述了公司对 AI 能力演进的战略构想——截至目前,LLM 已经初步具备了人类与现实物理世界互动的部分能力,智能体将会极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。

无论是智谱还是 OpenAI,其智能体最大的独特之处在于具备独立思考、调用工具的能力。对于普通用户而言,其最核心的功能是 AI 自主操作硬件设备,辅助完成复杂推理任务。

手机上的智能体能够精准操控各类应用,实现跨场景智能交互;电脑端的智能体被训练用于与图形用户界面 GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,意味 AI 能适应几乎所有的计算机环境,进一步凸显了 AI 玩转各类操作系统的能力。

另据《科创板日报》不完全梳理,谷歌、微软、Anthropic 在内的头部厂商正争先推出 AI 智能体产品——

微软在其 Dynamics365 平台一口气推出 10 个自主 AI 智能体,称相当于 187 名全职员工的产出;

谷歌发布号称 " 智能体时代 " 最强大模型 Gemini 2,提供多模态开发接口,让智能体能 " 看懂 " 物理世界;

Anthropic 为大模型 Claude 迭代了新功能—— Computer Use,让 AI 可以像人一样操控电脑。Claude3.5 Sonnet 是首个支持计算机控制的模型,能够模拟人类操作计算机,包括移动光标、点击按钮和输入文本;

华为公布了一项可让 AI 像人类一样操作手机的新研究成果,相关团队提出了一个手机控制架构:Lightweight Multi-modal App Control(轻量级多模态应用控制,简称 LiMAC)。

华创证券表示,随着 AI 技术的不断进步,AI Agent 已经不再局限于简单的任务执行,当前正逐步实现从 0 到 1 的跨越式创新。众多企业和研究机构投入研发,推出创新产品。行业结构初步形成,相关产业链和生态系统逐渐完善。根据 Root analysis,预计全球 AI 代理市场规模将从 2024 年的 52.9 亿美元增长到 2035 年的 2168 亿美元,2024-2035 年预测期内的复合年增长率为 40.15%。

天风证券表示,展望 2025 年,AI Agent 和推理需求的指数级增长有望引领规模化 AI 应用元年,持续推动软件产品能力边界的拓展,赋能企业实现更高效的运营和成本优化。以字节跳动为代表的企业通过豆包 AI 等核心产品的广泛应用,率先全面布局 AI 市场,显著提升推理能力和多场景适配性,为国内 AI Agent 技术实践提供了落地基础。结合大模型与 AIAgent 未来的技术进步,智能化应用场景加速拓展,助力企业级市场实现降本增效。这一现象将引领 ToBSaaS 行业迎来新一轮成长机遇,为中国软件行业在未来五年孕育出一批高成长型红利企业奠定基础

中国银河证券表示,AI Agent 将是通往通用人工智能时代的必经之路,大模型快速迭代升级推动 AI Agent 能力提升,长期来看 AI Agent 关键在于推理能力,未来 AI Agent 广泛渗透时,对于推理算力的需求将是指数级爆发增长

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 微信 春节 计算机 联想
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论