《科创板日报》1 月 24 日讯(编辑 宋子乔) 春节将至,年味儿渐浓,AI 给出了拜年新思路,让 AI 智能体(AI Agent)送上春节祝福,一句话就能实现——
据自媒体测试,给 AI 下达 " 给群里所有人发送新春祝福语 " 的任务后,AI 为该微信群的各位定制了不一样贺词,且 " 细心 " 附上了对方名字,无需手动操作便完成发送。
用 GLM-PC 发定制化新春祝贺时 GLM-PC 的思考过程
这番操作出自智谱刚上线的电脑智能体 GLM-PC。
1 月 23 日,智谱正式上线 GLM-PC。据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样 " 观察 " 和 " 操作 " 计算机,协助用户高效完成各类电脑任务。GLM-PC 还推出了深度思考模式,并新增逻辑推理和代码生成功能。
2024 年 10 月智谱发布的手机版智能体 AutoGLM 火速出圈,跟手机端的 AutoGLM 不一样,GLM-PC 引入了代码机制,而在深度思考模式下,GLM-PC 接收任务后会生成一套非常详细的思维链,再去执行,代码式的思维链可进一步强化 GLM-PC 对复杂任务的规划、推理、和反思的能力。
目前,GLM-PC 的 Window 和 Mac 客户端已同步上线。智谱表示,正与联想、华硕等知名 PC 厂商展开深度合作探讨,共同推动 AIPC 的创新与发展。
晚些时候,OpenAI 的 AI 智能体 Operator 在北京时间 1 月 24 日凌晨亮相,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。后续的部分用户测试显示,Operator 还可以完成在 Arxiv 上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。
用 Operator 预定餐厅
用 Operator 买菜
与智谱的深度思考模式类似,Operator 可通过新模型 " 计算机使用智能体 "(Computer-Using Agent,简称 CUA)的系统进行复杂的思维链反思和步骤规划,CUA 结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正,大大提高了 Operator 完成任务的精度和复杂性。
目前,OpenAI 的 "Operator" 智能体以 " 研究预览 "(research preview)的形式向美国的 ChatGPT Pro 用户开放。(小 K 注:ChatGPT Pro 的订阅费用为每月 200 美元,该服务专为需要高级 AI 功能的专业用户设计,提供无限制访问包括 GPT-4o 和 o1 在内的高级模型)
OpenAI 表示还将扩展智能体的动作空间,在接下来几周 / 几个月内推出更多的智能体。此外,其还计划开放 API 接口,让开发者能够基于 CUA 构建自定义的计算机智能体。
2025 智能体元年?
OpenAI 总裁 Greg Brockman 为 Operator 打 call 并强调,"2025 年是智能体之年"。
OpenAI 曾被曝出内部 AGI 路线图,将这一终极目标的实现划分了五级。目前 OpenAI 正向 AI 智能体,即 L3 级迈进(代理者,可以采取行动的系统)。
2024 年,智谱同样将 AGI 的实现划分了 5 级。智谱 CEO 张鹏在 Agent Open Day 上再次阐述了公司对 AI 能力演进的战略构想——截至目前,LLM 已经初步具备了人类与现实物理世界互动的部分能力,智能体将会极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。
无论是智谱还是 OpenAI,其智能体最大的独特之处在于具备独立思考、调用工具的能力。对于普通用户而言,其最核心的功能是 AI 自主操作硬件设备,辅助完成复杂推理任务。
手机上的智能体能够精准操控各类应用,实现跨场景智能交互;电脑端的智能体被训练用于与图形用户界面 GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,意味 AI 能适应几乎所有的计算机环境,进一步凸显了 AI 玩转各类操作系统的能力。
另据《科创板日报》不完全梳理,谷歌、微软、Anthropic 在内的头部厂商正争先推出 AI 智能体产品——
微软在其 Dynamics365 平台一口气推出 10 个自主 AI 智能体,称相当于 187 名全职员工的产出;
谷歌发布号称 " 智能体时代 " 最强大模型 Gemini 2,提供多模态开发接口,让智能体能 " 看懂 " 物理世界;
Anthropic 为大模型 Claude 迭代了新功能—— Computer Use,让 AI 可以像人一样操控电脑。Claude3.5 Sonnet 是首个支持计算机控制的模型,能够模拟人类操作计算机,包括移动光标、点击按钮和输入文本;
华为公布了一项可让 AI 像人类一样操作手机的新研究成果,相关团队提出了一个手机控制架构:Lightweight Multi-modal App Control(轻量级多模态应用控制,简称 LiMAC)。
华创证券表示,随着 AI 技术的不断进步,AI Agent 已经不再局限于简单的任务执行,当前正逐步实现从 0 到 1 的跨越式创新。众多企业和研究机构投入研发,推出创新产品。行业结构初步形成,相关产业链和生态系统逐渐完善。根据 Root analysis,预计全球 AI 代理市场规模将从 2024 年的 52.9 亿美元增长到 2035 年的 2168 亿美元,2024-2035 年预测期内的复合年增长率为 40.15%。
天风证券表示,展望 2025 年,AI Agent 和推理需求的指数级增长有望引领规模化 AI 应用元年,持续推动软件产品能力边界的拓展,赋能企业实现更高效的运营和成本优化。以字节跳动为代表的企业通过豆包 AI 等核心产品的广泛应用,率先全面布局 AI 市场,显著提升推理能力和多场景适配性,为国内 AI Agent 技术实践提供了落地基础。结合大模型与 AIAgent 未来的技术进步,智能化应用场景加速拓展,助力企业级市场实现降本增效。这一现象将引领 ToBSaaS 行业迎来新一轮成长机遇,为中国软件行业在未来五年孕育出一批高成长型红利企业奠定基础。
中国银河证券表示,AI Agent 将是通往通用人工智能时代的必经之路,大模型快速迭代升级推动 AI Agent 能力提升,长期来看 AI Agent 关键在于推理能力,未来 AI Agent 广泛渗透时,对于推理算力的需求将是指数级爆发增长。
登录后才可以发布评论哦
打开小程序可以发布评论哦