▲头图由 AI 生成
基础设施,为何成了 Agent 大战的隐秘前线?
作者 | 陈骏达
编辑 | 漠影
" 我的数据库 …… 没了?"
今年 7 月,一位名为 "Jason" 的网友在 X 平台上分享了一场 Vibe Coding 灾难。他在开发平台 Replit 上使用其内置的 Agent 辅助编程,在一次操作中,Agent 在没有明确用户指令的情况下,竟错误地执行了一个致命的数据库命令。
顷刻之间,他长达 80 小时的工作成果被清空。这无异于一位本应协助你的 " 数字员工 ",在未经允许的情况下,走进你的办公室,将你写了数周的项目资料全部扔进了碎纸机。
Jason 的遭遇绝非孤例,这揭示了 Agent 从原型演示到投入生产环境之间尚未跨越的鸿沟,即底层基础设施(Infra)的缺失。
当前,AI 模型正在从被动的问答工具,转变为能够自主规划、执行任务的 Agent 数字员工。然而,如何为这些员工提供足够强大的算力和工具,并赋予长期记忆,又如何为它们设定权限红线,确保它们不会 " 误触红色按钮 ",已成为 Agent 规模化普及前的巨大挑战。
没有坚实可靠的 Agent Infra,再聪明的 Agent 也无法成为可信赖的生产力。Replit 的这次事故,正是这种风险最生动的注脚。
而这也正是阿里云、AWS、谷歌云、微软 Azure 等云厂商争相发力 Agent Infra 的核心原因。他们试图打造的并非一个简单的工具集,而是一座现代化的 " 智能车间 "。
在这里,每个 AI Agent 都将在安全的环境中工作,拥有清晰的权限、稳定的工具和足够的数据,从而真正从实验室的原型,转变为真实生产环境中可靠数字员工。
01.
Agent 规模化落地挑战大
配套 Infra 已成必选项
企业为何需要这样一座 Agent 智能车间呢?
要让 Agent 在生产场景中发挥作用,我们需要为其提供足够的算力和数据(记忆),帮助 Agent 解决水土不服的问题。
例如,当 Agent 分析海量数据时,本地设备既无法承载庞大的数据洪流,也无法完成复杂的推理运算。这时,云端算力的支持就成了理所当然的选择。
此外,要让 Agent 做出正确的决策,就需要为其提供全面、准确且实时的信息,否则,其决策将基于不完整或过时的数据,导致输出结果不可靠,甚至产生错误。
但这仅仅是第一关,更大的隐患在于安全与权限控制的缺失。今年,知名 AI 搜索独角兽 Perplexity 旗下的 Comet AI 浏览器就曾爆出安全丑闻。
这款 AI 浏览器本质上就是一个能直接操纵用户设备的 Agent,然而,由于缺乏安全机制,它在阅读到网页上植入的恶意指令后,能直接打开用户邮箱、收取验证码,还把验证码分享给外部黑客,一条龙完成盗号。
这一事件暴露了将拥有高权限的 Agent 直接部署在开放环境中的巨大风险,企业必须为 Agent 打造配套的基础设施。
然而,Agent Infra 极为复杂,涉及底层算力调度、安全沙箱、模型集成、记忆数据库、工具调用链路等一系列核心技术模块,企业自建成本高昂且技术门槛难以逾越,后续维护也需要持续投入顶尖的研发团队,并时刻应对层出不穷的新型安全威胁,堪称一个填不满的技术深坑。
采用云厂商们开发的现成 Agent Infra 套件,对大多数企业而言是更为现实的选择。
例如,知名 Agent 产品 Manus 便是通过 Agent Infra 创企 E2B 打造的沙盒环境,让 Manus 的 Agent 获得了完整的终端访问权限,也提供了持久化的工作空间,这对于 Manus 广为人知的长链路任务而言,十分重要。
除了 E2B 外,AWS、谷歌云、微软 Azure 等云厂商也都已打造了相关套件。
AWS 的 AgentCore 提供记忆管理、身份验证、代码执行和浏览器工具等,强调安全、可扩展和多 Agent 协作;
谷歌云的 Vertex AI Agent Builder 聚焦构建和管理多 Agent 系统,支持任务调度、跨 Agent 协作以及与企业数据和云服务的集成;
微软 Azure 的 Agent Factory 强调身份认证、治理、内容安全和可观测性,同时结合 Azure 云服务和 Copilot 工具链,支持企业快速落地智能体应用。
总体来看,主流云厂商的思路均是:构建安全、可扩展、可组合的 Agent Infra,让企业开发者能在已有基础设施和生态下快速部署、管理和监控多 Agents 系统,形成差异化服务能力,同时降低企业上手门槛。
02.
国产 Agent Infra 突围
让 Agent 学会自我进化
在 Agent Infra 的布局上,国内厂商也丝毫不落后。今年 4 月,阿里云开启 Agent Infra 开发套件——无影 AgentBay 的公测,迅速吸引了大量开发者和企业关注。
AgentBay 的核心定位是为 AI Agent 打造的 " 超级大脑 " 或 " 云上操作系统 "。它能够动态调用云端算力、存储和工具链资源,将复杂任务接入高性能云电脑,突破了 Agent 在本地设备上的算力限制。
AgentBay 不仅集成了云上沙箱环境、算力调度、持久化数据存储和企业级安全等核心功能,还内置了视觉理解、自然语言控制和任务解析等多项 AI 技术。尤其是云上沙箱环境,保障了 Agent 对本地环境的零侵入,给 Agent 执行加了一道保险。
同时,它支持原子化工具 API、AI Agent API 以及 ASP 远程串流协议等多种交互方式,极大地提升了自动化执行效率,使开发者能够在高性能、安全的云端环境中快速部署和管理 AI Agent。
而在今年的云栖大会期间,AgentBay 迎来重大升级,推出了自进化引擎、内存状态管理、安全围栏等全新能力。其中最引人关注的,是基于环境反馈的自进化引擎—— Self-Evolving。
阿里云无影关注到企业在部署 AI Agent 时面临的一大关键挑战:Agent 并不能在执行任务过程中实现 " 自我提升 ",最终其效果还需要人工调整,才能逐渐优化。这就好比你招募了一位员工,但他并不能主动从工作中总结经验和教训,始终未能进步。
对于 AgentBay 自进化引擎的工作原理,AgentBay 产品经理屈立威向智东西解释道,自进化引擎可以理解为广义的强化学习,但并不直接训练模型。自进化引擎会针对提示词、工作流、Agent 架构、工具等多个方向进行能力优化,每个方向使用的方法或算法各不相同。
例如在提示词优化方面,对于短序列任务,可以直接根据目标和实际结果进行修正;而对于长序列任务,由于难以直接获得最终结果,则会采用多种算法来优化执行效果,比如基于文本梯度(text grad)或微调推理(mipro)的方法。
通过这种模块化、服务化的设计,企业无需组建庞大 AI 团队,也能让 Agent 在执行过程中不断自我优化,提升与业务目标的匹配度。
AgentBay 自进化引擎能够在任务执行中自动分析 Agent 的失败案例,并尝试生成和测试更优的提示词。它还能根据任务需求自主创建或封装新工具,不断拓展 Agent 能力边界。
这一机制不仅关注单个 Agent 的流程优化,也可在多 Agent 协作网络中智能部署最优工作流,提高整体效率。
此外,平台的记忆策略使 Agent 具备 " 过目不忘 " 和 " 选择性遗忘 " 的能力,可以对长期任务进行智能管理,适应复杂、长周期的应用场景。
03.
Agent Infra 加速发展
会成为下一代应用的跃升点吗?
AgentBay 并非凭空出现,屈立威在采访中介绍道,在云电脑时代,阿里云积累了多项核心技术能力,而 AgentBay 的许多技术依赖,与云电脑是 " 一脉相承 " 的。
例如,云电脑需要高流畅性和清晰的操作体验,而阿里云此前已自研了 ASP 端云实时通信协议,确保远程云环境操作体验接近本地,这也能让帮助 Agent 实现与云端执行环境之间的高效、实时交互。
大规模的资源调度能力和性能保障,也是阿里云此前打造云电脑时重点解决的问题。目前,AgentBay 便依托阿里云的全球资源池进行部署,用户可以就近接入,保证了低延迟和高可用性。
然而,Agent 也提出了新的技术挑战和升级需求。屈立威称,首先,Agent 需要更强的感知与控制能力,不仅要像人一样 " 看懂画面 ",判断鼠标点击、输入是否生效,还要支持文件系统操作、命令行以及撰写 RPA 脚本等多种工具操作。
其次,其风控与安全要求也更高,需要阻断敏感指令、过滤不安全内容、约束上网行为,保障企业私域安全。
此外,Agent 任务的执行方式呈树状、多分支,每个节点都需打快照(checkpoint)、支持快速回滚,并复制克隆环境以实现并行执行,这对状态管理和多维度调度提出了更高要求,而这些都是云电脑时代所未涉及的关键能力,需要重点突破。
为此,阿里云自研了持久化文件系统,让 AgentBay 能够动态地按需保留用户状态和文件,确保了任务执行的连续性和状态的一致性,这对于需要执行长链条、多步骤任务的复杂 Agent 至关重要。
安全方面,AgentBay 则构建了端到端安全体系,包括沙箱隔离、数据加密与 RBAC 访问控制、AI 内容风险检测以及日志审计,保障任务安全、合规与可追溯。
除了给企业打造 Agent Infra 之外,阿里云还在云栖大会上,给个人用户也提供了一款跨终端、跨模态的智能计算平台——无影 Agentic Computer。
Agentic Computer 是一个拥有长期记忆的个人助手,具备云端弹性算力与多任务并行能力。它内置垂直场景 Agent,实现办公、设计、研究等专业化支持。它将个人计算与云端智能协同起来,有望让更多用户体验到 Agent 带来的赋能作用。
从产业视角来看,Agent Infra 的发展与移动互联网时代 App 生态的兴起有一大共性:基础设施成熟,为新形态产品快速落地提供了支撑。
移动互联网时代,智能终端、网络和云计算能力的完善,使海量 App 得以高效运行和广泛普及,催生了丰富的应用生态;如今,AI Infra 依托全球化云资源、弹性算力调度和全栈安全体系,为 AI Agent 提供高性能、低延迟、可控的运行环境。
稳固的基础设施降低了创新门槛,推动 Agent 在企业自动化、内容生成等多样化场景中迅速落地,有望形成新一轮产业生态和创新循环。
04.
结语:给 Agent 打好 Infra 地基
Agent 离广泛落地又近一步
Agent Infra 正逐步成为新一代数字化、智能化基础设施的组成部分,类似于移动互联网时代的云和网络,为 AI Agent 生态提供底层支撑。
同时,Agent Infra 的发展正在改变产业创新节奏和生态构建方式。企业不再需要自行搭建复杂底层架构,而是可以在统一、安全、可扩展的平台上试验多样化 Agent 应用。
随着工具链标准化和安全机制完善,或许会有越来越多企业和开发者能够快速部署 Agent,推动生产、服务和研发环节的自动化与智能化,从而催生新型业务模式和产业应用。
登录后才可以发布评论哦
打开小程序可以发布评论哦