智东西 22小时前
Agent Infra之战打响!腾讯云重做腾讯云
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 漠影

Agent 正从技术概念快速走向产业落地。随着大模型能力持续提升,Agent 已经具备任务理解、工具调用、自主规划和执行能力,并开始进入客服、研发、办公、运营等真实生产场景。

然而,当 Agent 真正进入生产环境后,一个更深层的问题开始浮现:今天的基础设施并没有为 Agent 时代做好准备。

过去十余年,企业 IT 基础设施的设计逻辑始终围绕人类用户和传统应用展开。无论是服务器资源调度、虚拟化架构、容器平台,还是数据库,其核心目标都是支撑稳定可预测的软件服务。

面临 Agent 这一充满不可预测性的新型负载形态,基础设施的计算、存储、网络、资源调度以及 Runtime 系统都面临前所未有的挑战。

也正因此,行业开始重新审视 AI 基础设施的定义。未来企业需要的不仅是更强大的模型,更是一套能够支撑 Agent 持续运行、自主协同和大规模扩展的 Agent-Ready Infrastructure。越多厂商正在围绕这一方向展开布局,Agent 时代的竞争,正在从模型层逐步延伸到基础设施层。

面对这一趋势,腾讯也给出了自己的答案。在今天举办的腾讯云 AI 产业应用大会上,腾讯系统性展示了面向 Agent 时代的基础设施能力布局,从运行平台到底层资源体系,试图为企业构建真正适配 AI Agent 生产落地的新一代基础设施底座。

一、从云服务到 Agent Runtime,企业级 Agent Infra 经历范式重构

Agent 工作负载,到底和传统的应用、服务有什么区别?

腾讯云存储总经理马文霜举了个例子,当我们要求 Agent 做一份 " 新能源车的概念报告 " 时,Agent 可能会进行浏览网页、下载安装包、编写代码、生成文件等等操作,其执行链路不确定性较强,还需要独占环境。

同时,当 Agent 批量走入生产场景,高并发情况难以避免,给基础设施带来较大压力;凭证管理、数据隔离等技术,则是 Agent 可靠性和安全性的重要保障。

要想真正实现 Agent 的规模化部署,一套符合其特性的新型基础设施,不可或缺。

为此,腾讯云已经打造了 Agent 治理平台的全新架构设计。腾讯云资深 AI Infra 架构师邢陪邻称,其核心逻辑在于将 Agent 视为具备岗位职责、汇报关系与权限边界的 " 数字员工 ",而非简单的程序工具。

针对企业规模化部署 Agent 过程中面临的接入门槛高、组织管理复杂、协作记忆分散、成本难控制、安全审计要求高以及技术框架不统一等问题,腾讯云构建了覆盖 " 多 Agent 统一接入、多组织统一治理、多场景统一交付 " 的治理平台架构。

在该架构的基础设施层中,计算(包括 Runtime)、存储、网络和安全都扮演着重要角色。

其中,Agent Runtime 架构是 Agent 运行的核心技术之一。腾讯云高级产品经理、CNCF 大使周鹏飞认为,Agent 基础设施需要围绕 Agent 的特征,比如高自主性与生命周期的不确定性,来进行定义设计和全面升级。

腾讯云在 Agent Runtime 中整合了沙箱调度、身份认证、出站访问管理、全链路监控、凭证管理以及 Agent Memory 等能力,解决传统微服务架构下资源长期占用、Agent 任务容易中断等问题。

腾讯云的上述技术让企业可以实现 Agent 的快速部署。但在腾讯云计算高级产品经理、SkilHub 主理人戴惠怡认为,用户真正需要的不只是成功部署,而是 Agent 能稳定地 " 帮我做事 "。

为满足这一需求,Agent 需要专属云底座为其提供环境,并依靠 Skill 生态实现能力扩展。

云底座方面,腾讯云的 Lighthouse 轻量应用服务器面向开发者及泛大众为 Agent 提供稳定、安全的云端运行环境,可以支持 Agent 7 × 24 小时的持续运行,降低部署和运维成本。

面向企业市场,腾讯云 ClawPro 与 Lighthouse 上百万级的 OpenClaw 用户环境同源同构,经过大规模生产验证,实现了面向企业的 Agent 管控平台,同样实现开箱即用的零门槛。

在 Skill 生态方面,腾讯打造了 SkillHub 社区,目前该社区已经收录 7.8 万个 Skill,上线 2 个月下载量突破 3000 万次。这些 Skill 将人类经验、工具调用、业务流程和实践经验沉淀为 Agent 可以理解、复用的能力。

该社区对全球和本土 Skill 资源进行了统一管理、安全审核和分发,让原本分散在个人和团队中的 Skill 资产流通起来,串联起 Skill 生产、发现、安装、复用和组织化管理的完整链条。

二、让 Agent 真正跑起来,需要什么样的底座?

腾讯云的 Agent Runtime 体系包含多项关键技术,腾讯的相关技术负责人对其进行了详细介绍。

首先是沙箱技术。Agent 需要真正去操作设备、执行代码、访问数据,这种能力伴随着巨大的安全风险,对广大企业而言,为 Agent 提供一个隔离、受控的环境,几乎是必选项。

Agent 沙箱的实现方式多种多样,既有本地也有云端。腾讯云选择的路径是云端沙箱,这一方案的优势在于可以实现存算分离、按任务隔离、暂停免费以及秒级唤醒。

腾讯云针对 Agent 沙箱在真实生产环境中,面临的冷启动慢、扩展上限受限以及闲置成本高等问题,提出了一整套工程化优化方案。

首先,他们通过内核层优化(如全栈锁优化)、资源池化、镜像按需加载与就近缓存,以及基于快照恢复的机制,将传统超过 20 秒的冷启动时间大幅压缩至 60 毫秒,实现 " 即开即用 " 的运行体验。

在架构层面,腾讯云去除了对传统 K8s 控制面的强依赖,引入无单点依赖设计与多资源池、两级调度机制,显著提升系统的并发能力与横向扩展上限,使平台能够支撑百万级 Agent 规模的高并发运行。

在成本控制方面,系统通过 VM 快照实现 " 自动休眠与恢复 " 机制,在 Agent 闲置时冻结运行状态,仅保留极低成本的存储计费,恢复时可实现毫秒级唤醒,从而有效降低长期运行成本。

这一系统支持从单一到大规模 Agent 的批量管理与全生命周期调度,展现出较强的可扩展性。

许多用户对 Agent 的期待是 " 越用越好用 ",能 " 越来越懂我 "。但要真正实现这一点,Agent 需要一套好用、高性价比的记忆基础设施,帮助用户积累智能资产。

腾讯云也关注到了这一问题。在 Agent Memory 方面,他们基于 TencentDB 构建了四层记忆架构,将 Agent Memory 从简单的数据存储升级为可治理、可演进的智能资产体系。

该架构自底向上分为四层:L0 原始对话用于记录基础交互内容,L1 原子事实负责提取关键结构化信息,L2 场景模式用于归纳行为与交互规律,L3 核心洞察则进一步沉淀为用户画像与业务级认知。

在此基础上,通过腾讯云自研模型驱动的抽取、压缩与符号化处理机制,腾讯云提升了记忆的可用性与可解释性,也大幅优化了系统性能与成本结构。例如,在长期记忆场景中(PersonaMem)准确率由基线的 48% 提升至 76%,整体提升约 28.16%。

在 Token 消耗方面,短期记忆压缩与上下文卸载机制的引入,让 Token 整体节约率接近 49.9%;同时长任务成功率提升 30%,推理加速至 2.53 倍。该记忆系统支持开源与云托管双形态部署,使记忆数据始终保持透明、可迁移与可治理,避免形成数据黑盒。

给 Agent 配齐 " 虚拟工位 "(沙箱)、" 工作笔记 "(Memory)之后,如何评估、管理并优化其执行效果,对企业而言也十分关键。

腾讯云日志服务高级产品架构师巢丰岩认为,Agent 的可观测性与传统可观测性有一定区别。服务在线率、接口相应速度、基础资源消耗等传统指标,无法准确反映 Agent 真正的任务完成度、Token 消耗和工具调用的合理性。正因为此,企业在使用 Agent 时,往往会有一种 " 黑盒 " 的感觉。

为解决这一黑盒难题,腾讯云打造了一套面向生产级 Agent 的全域观测和分析能力。这套方案可以实现对多种 Agent 形态的快速接入,还可以对上下文 Session、Agent 工作链路(Trace)、Skills、工具调用等数据进行统一建模,无需人工拼接。

同时,在分析层面,这套方案支持对多种指标的全局分析以及单链路具体分析,比如 token 消耗分析、RAG 分析、模型性能分析等等。

这种观测与分析能力,可以帮助企业及时定位 Agent 在执行过程中遇到的问题、出现的高危操作。巢丰岩认为这最终会沉淀为企业的 bad case 数据集,形成数据飞轮,最终反哺 Agent 能力的提升。

三、存储与算力同步升级,复杂性留给基础设施

从治理体系,到运行环境,再到记忆系统,腾讯云已经配齐了 Agent 走向生产环境所需的核心组件。然而,随着 Agent 开始承担更复杂、更长期的任务,新的问题随之出现:海量 Agent 的数据如何存储?高频推理带来的算力成本如何控制?这些问题最终都指向更底层的存储与算力基础设施。

从技术思路来看,传统存储主要围绕实现方式设计,最终目标是实现一个可靠的存储系统,而 Agent 时代的存储系统的设计思路,应该是让存储被智能体高效使用。这是由于过去云存储主要服务于应用系统,数据边界相对固定;而 Agent 存储既需要严格的数据隔离,也需要支持协同共享、动态扩缩容和长期记忆管理。

围绕这一趋势,腾讯云提出将存储用途与底层实现解耦,并通过统一的 Volume 抽象层重构存储体系。腾讯云将存储能力标准化为三类:专属 Volume 用于单 Agent 独占读写,共享 Volume 支持多 Agent 协作,制品 Volume 则以只读方式分发数据,保障系统资产安全。

在产品层面,腾讯云提供了 AgentBucket 和 VectorBucket 两项新能力。其中,AgentBucket 采用全新的 Space 架构,提供独立用户空间、原生 POSIX 文件语义及跨租户去重能力,解决传统对象存储 Bucket 数量受限、隔离依赖业务逻辑等问题,为海量 Agent 的长期记忆和知识管理提供支撑。

另一项 VectorBucket 则面向 RAG 场景打造,基于存算分离架构,支持十亿级高维向量存储与毫秒级检索。相较传统方案,其存储成本可降低约 90%,同时实现零运维部署,进一步降低企业构建知识型 Agent 的门槛。

此外,腾讯还对 MetaInsight 多模态数据管理引擎做了升级,它能自动进行特征提取、目标检测、OCR 识别和多模态对齐,支持 Agent 进行复杂推理和检索。

在基础设施层,Agent 的出现让云厂商的定位发生了变化。如今,要让 Agent 跑起来,远不只是提供一台机器那么简单,其底层涉及多个技术栈的协同。

对企业而言,这些工作不仅技术链路长,而且高度碎片化,任何一个环节处理不当,都可能导致 Agent 无法稳定运行,甚至带来数据泄露或权限失控的风险。

面临这些挑战,腾讯云所做的是再往前迈一步,将原本分散且高度专业化的基础设施能力,转化为稳定、可复用、可规模化的统一平台能力。

以腾讯云的 ClawPro 为例,作为企业级的智能体统一管控台,它为用户提供了底层云服务的全自动化托管。企业管理员只需要在后台点击开通,系统就会一键智能拉起所有关联的基础云资源,例如云服务算力、存储、网络等,实现算存网一体。

Agent 管理、审计、隔离、安全等多维度的功能也被整合,企业用户不需要懂太多的技术细节,即可将 Agent 引入自己的业务流程中。

对于合规要求更高的政企客户,腾讯云还为用户提供了 ClawPro 专有云版本,让企业可以在私有环境中部署 Agent,实现对核心数据和模型的自主掌控。

腾讯云的这套产品方案,已经在不少真实场景中获得了验证。乐享科技便将基于 ClawPro 的 AI Agent 接入家庭机器人,快速补齐机器人的感知和交互能力,提升其在真实家庭场景的可用性。

外贸数字化服务商富通天下则将 ClawPro 集成进自身的私域 CRM 系统中,连接外贸 CRM 与 AI Agent 能力。

这些案例都有一个共性:ClawPro 将原本分散在底层的基础设施能力进行了统一封装与平台化整合,企业要做的只是结合自身专有知识与业务理解,发挥出这套基础设施在其自身业务中的价值。

结语:腾讯云重做腾讯云

过去很长一段时间里,云计算要解决的关键问题是 " 应用如何运行 ",而未来,云计算面临的新挑战,可能会演变为 "Agent 该如何工作 "。

仅提供 CPU、存储和网络的云服务商,在 Agent 时代已经很难满足用户需求了。如何为数字员工们提供工位、记忆、技能库、协作和管理系统,是他们需要思考的关键问题。

从这个角度来看,腾讯云正在大刀阔斧地重做腾讯云。他们试图重新定义云基础设施的边界:云不再只是承载应用运行的资源池,而是成为 Agent 诞生、运行、协作、成长和治理的底座。过去云厂商交付的是计算资源,未来交付的或许是一整套数字劳动力的生产环境。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯云 ai 腾讯 云服务 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论