当智能体需要无处不在,算力该如何多端流转?

云与边缘融合为一个统一的系统，构建一个计算的连续体。

文｜刘俊宏

编｜王一粟

一只龙虾引爆了 Token 经济学。

2026 年初，智能体 OpenClaw（龙虾）改变了所有 AI 公司的商业模式。

AI 开始从 " 被动响应 " 迈向 " 自主行动 "。用户不再满足于让 AI" 回答问题 "，而是要求它能规划任务、调用 API、跨系统协作、甚至在物理世界执行动作。

智能体不再是云端一个大模型，而是分裂成一群小助手，实时在手机、PC、机器人等边缘设备、云端之间跑来跑去，帮你订机票、开车、做实验。

智能体不仅是无处不在，还会自主运行、互相协同。这就带来了许多新的算力需求和挑战。

首先，是智能体自主运行，与软件交互的速度远超人类。在所有工作流中，Token 将以机器速度生成，而非人类速度。

"2026 年，全球每 10 秒约 317 亿 Token 需求；到 2030 年，同样是每 10 秒，这一数值将达到 1.27 万亿，增幅高达 40 倍。而这一爆发式增长，正是由智能体 AI 生成的海量 Token 所驱动。" 高通 CEO 安蒙预测。

另外，无处不在的智能体 AI，分布式地流转在不同设备之间，要的是一个无处不在、能够提供连续服务的计算平台。

" 我们不会再单独去谈云端与边缘，因为它们将融合成为一个统一的系统。" 高通认为，云与边缘不是非此即彼。安蒙在发言中称，"AI 是在云端还是在边缘侧运行，是由智能体来决定。计算资源将被充分利用，AI 将在所有设备上运行。"

这就意味着，推理能力将被分布到最合适的位置，在 token 成本、功耗、延迟和隐私之间实现最优平衡。

智能体时代已来所有设备都将成为 AI 的端点

机器人，被看作是智能体在物理世界的最佳载体之一。

2026 年，机器人的智能被分成了三层。其中，第一层是即时执行，对应人类不需要思考的动作，例如站稳脚跟；第二层是具体动作执行，这部分对应机器人跟场景的交互，例如跳舞；第三层是逻辑推理，这部分对应真实世界物理关系的理解，例如推理一个完整任务并理解前因后果。

三层智能层层递进又相互补充，安蒙总结说：" 研发机器人不只是研发它的‘大脑’，还需要配备核心计算单元、运动控制模块，以及各类驱动执行能力。想要在机器人领域取得成功，你必须懂得如何将其设计为一套分层式计算系统。"

同样的现象，也出现在智能汽车上。在此前，智能汽车和座舱互不相干，而在 2026 年舱驾一体成为关键词之后，汽车智能也变成了一个由两层级智能整合的系统，用户现在可以直接用语音让汽车启动智驾。

这场改变的原因，就是 AI 智能体让之前只能当 Chatbot 的 AI 能直接办事。"AI 正从简单响应指令、辅助人机交互的工具，进化为能够自主采取行动的系统。这是 AI 正在演进的方向，并将迎来前所未有的规模化普及。" 安蒙说。这也是为什么高通将 2026 看作是 " 智能体之年 "。

但同时，在看到端侧开始逐渐承载运行智能体的需求之后，安蒙也意识到当下所有的算力厂商面临前所未有的机遇和挑战，" 它正在重塑计算架构，将催生对新型设备和计算能力的巨大需求，而这一升级周期，有望成为行业有史以来规模最大的周期之一。"

事实上，在过去的三年里终端硬件厂商做了不少 AI 落地的铺垫。

例如从 2024 年底开始，手机和 PC 行业就大量在设备中集成 NPU，智能汽车座舱和智驾芯片的算力参数也变得越来越大。但现实是，许多 PC 的 NPU 算力调度还很有限，手机的各种 AI 功能大部分还要默认联网执行，用户对端侧 AI 实际的使用感知非常有限。

但在智能体时代，或许这些之前准备好的基础设施终于要真正用起来了。

" 这些设备都将成为智能体的端点（endpoint）。而且，智能体也不会受限于任何单一设备或单一生态系统。所有能够将用户与智能体连接起来的一切，都将成为 AI 的端点。"

正如安蒙所说。当智能体需要在设备上即时响应、自主规划、跨应用执行复杂任务时，端侧平台必须成为智能体能够原生栖息的运行环境。如此一来，由智能体主导的工作流就能将任务分布到最合适的位置——终端设备、边缘侧、本地服务器以及云端。

这意味着，当 AI 开始主导 " 自己 " 的工作，开始调动多个云侧和端侧 AI 设备来共同提供算力。那之前单一堆叠 AI 加速器的方法将不再适用，AI 计算平台必须进行系统级的重新设计。

计算连续体智能体 AI 新基建

当智能体代替人类操控，需要什么样的新基建？

云端、手机端、PC 端、车端，智能体的计算该怎么协同分配？

高通给出的答案是 " 计算连续体 "，让智能体在整个算力链条里面自由流转。

这套方案并不只是简单的算力分摊，让不同环节的 AI 终端共同产出 Token。而是一套让推理能力被分布到最合适的位置，在单 Token 成本、功耗、延迟和隐私之间取得最优平衡的全新基建体系。

这种认识，也是当下算力基础设施厂商的共识。

例如 AWS OpenSearch Service 总经理 Tia White 近日在 LinkedIn 发帖称，智能体的通信需求跟人类完全不一样，" 它们可能毫无征兆地出现流量峰值，也可能悄然进入空闲状态 "。而面对智能体产生的数据流量对现有计算网络的冲击，边缘计算公司 Cloudflare 高级产品经理 Lai Yi Ohlsen 表示：" 非人类流量将在 2027 年上半年的某个时候超过人类流量。"

重塑整个计算链路的好处，Omdia 在一份报告中指出，通过在设备间分布式部署 AI 能力，80% 的本地处理率可将云端运营成本从 55 亿美元降至约 12 亿美元，每年节省 43 亿美元，同时改善延迟、能效和可靠性。

这项改造具体如何实现？高通在本次大会上提供了一套包含 " 三大支柱 " 的解决方案。

首先，第一支柱是 " 规模化覆盖 "，这回答的是 " 智能体到底在哪运行 "。

在高通的构想中，智能体不会局限于某一位置，而是需要在终端设备、边缘、本地环境和数据中心之间动态迁移。高通在其中负责提供统一架构，算力平台覆盖从毫瓦级（终端侧）到千瓦级（数据中心），使推理与规划工作负载在各层级之间实现无缝流动。

这种智能体原生的基础设施，能支撑智能体运行时的流量爆发。基于高通计算平台的统一调度，Token 的生成就可以避免传统云端的单点瓶颈或端侧算力比较小的天花板。进而在保证 AI 性能的同时降低总体成本，并保持响应速度。

整套流程，简单来说就像是解一道数学题。之前是博士生提供完整答案，但高通的思路是博士生负责给出解题思路，研究生负责列算式，大学生负责每一步计算。

更重要的是，由于整个计算平台都在高通的架构内，这就像是整个团队 " 心有灵犀 "。在端侧和云端融合之后，智能体还能获得跨层级的一致性，进一步保证运算效果又快，还不会 " 跑偏 "。

高通给出的第二支柱，是 " 原生 AI 设备及系统 "，这回答的是 " 智能体应用怎么落地 "。

毕竟，用户是需要通过具体的终端设备来使用 AI 的。这代表着智能体在设备上提供始终在线的服务，必须满足即时性能、隐私保护和可靠性三重约束。换句话说，就是要想实现 AI 聪明地 " 到处跑 "（规模化覆盖），就必须要先让设备天生 " 会 AI"（原生系统）。

高通在这一层的布局覆盖了智能手机、AI PC、可穿戴设备、智能汽车、机器人、边缘推理设备以及面向新形态的系统级设计。

在 PC 上，高通这次带来了面向入门级 PC 的骁龙 C 平台；在具身智能领域，高通展示了高性能机器人参考设计平台高通跃龙 IQ10 RRD。最令人意外的是，高通这次还正式公布了面向数据中心的新品牌——高通飞龙（Dragonfly）。从个人设备，到数据中心，高通的计算平台即将实现闭环。

值得注意的是，高通在这些业务领域都落地了高性能 CPU 和推理专用加速器。这让每一种产品都能够提供智能体规划所需的通用计算和处理人工智能神经网络推理的能力。

不仅如此，高通的计算平台一如既往地能够兼顾成本和功耗控制，让消费者能够以高性价比买到智能体长时间的陪伴。

" 每种设备都需要合适的 AI 平台，因为它们各不相同、用途上也存在差异。关键在于让智能和能效在任何地方都实现最大化。" 安蒙总结说。

最后一个支柱是 " 智能连接 "，这回答的是 " 智能体之间如何协同 "。

当端侧设备都具有 AI 能力，连接本身也必须具备智能。如果说前面两大支柱都还在智能体的计算层面，那么连接让智能体能够互相聊天、实时合作，就像一群小分队在战场上瞬间协同作战。

这一点，Omdia 在报告中也指出，要实现 AI 的有效规模化，科技行业需要优先发展跨设备的协同规划能力，整合边缘系统与云服务。毕竟，通信是智能体协作最关键的部分，如果不能及时交换信息，那分布式计算可谓毫无意义。

要满足这一需求，可能要寄托于即将到来的 6G 网络。

但对于这部分，高通早已做好了相关布局。安蒙展望说，" 网络本身就是一个 AI 原生网络，其分布式 AI 计算与推理能力从无线基站一直延伸到中心机房乃至数据中心。" 这意味着，万物智能的时代终于到来了。

通过 " 计算连续体 " 的方案可以看到，高通在 AI 时代的布局已远不止个人终端与通信，而是覆盖从可穿戴设备到数据中心的完整算力网络。从最小的边缘算力到云端基础设施，高通都能提供相关产品，并试图用一套相互连接的解决方案将它们串成整体。

" 高通在智能手机、PC、车载计算和机器人领域有着领先的每瓦特性能表现，并正在将这一优势延伸至数据中心 "。

正如安蒙所言。高通的标签即将在智能体时代发生改变——从过去的芯片公司，升级为 AI 智能体解决方案公司。

护城河的深度取决于 AI 应用的广度

高通的转变是今年 Computex 大会的一个缩影。

在 AI 大模型时代之前，Computex 就像是个 " 电脑配件大卖场 "。在 2023-2025 年 AI 大模型刚开始的时期，大会内容主要是硬件厂商尝试与 AI 接轨，" 堆基础设施造大模型 " 的狂欢。而在今年，大会的风向彻底转向以 AI 为中心，在场的每一个厂商都在讨论 AI 在 " 物理世界 + 智能体时代 " 的具体落地。

尤其是今年有不少厂商都宣布，将扩大 AI 领域布局。

例如，今年英伟达就一口气发布了 CPU、PC 芯片、人形机器人等多项产品，准备从 AI 基础设施的定位扩展到物理 AI 全栈。AMD 这次的主线是从纯硬件，转向做 Agent Computers（本地智能体），试图抢占英伟达在开发者和边缘 AI 的份额。Intel 靠 18A 工艺 " 翻身 " 之后，开始规划做 " 从手持设备到数据中心 " 的 AI 全栈硬件。

" 讨论的重点，从来都不是在云端能运行的东西也能在边缘运行。我们需要的是，该在云端运行的东西在云端运行，该在边缘的在边缘运行，这是完全不同的概念。"

正如安蒙所说，在当下阶段，单纯的算法或是硬件已经不能回答智能体是否能用好的问题。要想智能体真正在全栈算力硬件自由流转，不仅需要厂商拥有 AI 布局的广度，更需要吃透智能体应用的每一个环节。

为此，高通在本次大会现场准备了大量真实演示，试图验证计算连续体这套端到端系统级布局的可行性。

其中一些 Demo 由高通亲自操刀，作为技术标杆展示其深度。例如，智能体发票助手能够通过摄像头扫描收据，自动完成从翻译到生成文件，展示了端侧多模态 AI 的完整工作流。另一些 Demo 来自合作伙伴，覆盖了从创意生产到软件开发的完整工作流，展示的是生态的广度。

端云协同的好处，安蒙举了个例子说：" 以一段真实的 Claude Code 运行场景为例，规划器会对工作负载进行智能调度：将部分任务留在设备端本地计算，把必要内容上传至云端。通过这种分布式智能体 AI 架构，充分利用跨计算连续体的所有算力资源，可节省约 140 万 Token，在获得相同结果的前提下减少成本 60%。"

这种成本的降低，对烧钱如流水的 token 来说，简直就是久旱逢甘霖。

为了实现这种效果，高通背后做了大量布局。

例如在去年 6 月，高通宣布收购 Alphawave Semi，这是一家擅长高速有线连接的公司，补齐了数据中心 AI 推理加速卡在 scale-up（PCIe）和 scale-out（Ethernet）方面的需求，这是高通能进一步押注数据中心算力卡的关键。

另外，高通尝试用跃龙品牌覆盖从工业边缘侧到机器人大脑的计算平台。这次大会上，高通带来了面向机器人的计算平台的全栈参考设计——高通跃龙 IQ10 RRD。据了解，高通跃龙 IQ10 RRD 不仅能同时支持工业机器人、自主移动机器人（AMR）及人形机器人，而且还集成了端到端的软件栈，主打 " 开箱即用 "。

而在消费端，本次高通在之前的主打 PC 高性能的骁龙 X 平台基础上，带来了面向入门级笔记本的骁龙 C 平台。从产品预期上来说，或许搭载骁龙 C 平台的 PC 有点类似 Chromebook，主打轻应用和办公需求。但两者的区别是骁龙 C 平台集成了 NPU，这意味着新一代入门 PC 的产品门槛，除了功耗和性能之外，还要能用上端侧 AI。

从芯片到连接，从可穿戴设备到数据中心，从消费端到工业场景，高通构建了一条贯穿物理世界的完整算力连续体。

这种全方位的布局，让高通在智能体时代抓住了真正全面整合的机会。当其他算力厂商仍在强调 " 暴力计算 " 与参数规模时，高通却用边缘 AI 网络、每瓦特性能和极致的 TCO（总体拥有成本）优势，提出了一套截然不同的系统性答案。

在智能体成为关键词的 2026 年，AI 已经大幅降低了人类获取更高智能的门槛。而高通正在做的，是将这一门槛进一步拉低到人人可及。

宙世代

一起剪

相关标签