从 " 感知 " 到 " 生成 ",再到自主行动的 " 智能体 ",AI 正在终端侧掀起一场无声的算力革命。
在量子位 MEET2026 智能未来大会上,高通公司 AI 产品技术中国区负责人万卫星指出:
尽管目前行业关注点仍然集中在生成式 AI 上,但整个产业其实正呈现出从生成式 AI 向智能体 AI 演进的路线。
他将这一演进过程梳理为四个阶段——从传统的感知 AI 出发,历经当前的生成式 AI、正在到来的智能体 AI,最终迈向理解真实定律的物理 AI。
而目前产业正处于从 " 生成 " 向 " 智能体 " 跃迁的关键窗口期,终端侧的能力也正从单一文字模态,向全模态交互加速演进。

在他看来,在端侧运行大模型,最大的护城河在于" 个性化 "——在离数据产生最近的地方做推理,不仅能实现隐私保护,更能提供无需联网的即时响应。
然而,要在手机、PC 等高集成度设备上部署百亿级参数模型,必须直面内存受限、带宽瓶颈与功耗控制这三大挑战。 对此,万卫星分享了高通的破局之道。
最后,对于未来的终端体验,他描绘了一个混合 AI 与分布式协同的图景——智能眼镜、手机、汽车将实现跨端的 AI 推理。
为了完整体现万卫星的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
MEET2026 智能未来大会是由量子位主办的行业峰会,近 30 位产业代表与会讨论。线下参会观众近 1500 人,线上直播观众 350 万 +,获得了主流媒体的广泛关注与报道。
核心观点梳理
AI 应用的演进,可以分为感知 AI、生成式 AI、智能体 AI 和物理 AI 四个阶段。
从模态来看,终端侧正在从单一文字模态,向多模态甚至全模态方向演进。
生态系统从单体模型向复合系统的转变是迈向智能体 AI 的基础。
在终端侧运行大模型,最大的好处之一是个性化。
在终端侧运行大语言模型主要面临内存限制、带宽限制和功耗控制等挑战。
为解决这些挑战,高通进行了一系列技术储备与预研:量化与压缩、并行解码技术等以提高推理效率、先进 NPU 与异构计算架构。

以下为万卫星演讲原文
AI 应用演进的四个阶段
今天我想跟大家分享一下高通在终端侧 AI 以及混合 AI 上的成果和思考。
首先,我们来看一下 AI 应用在整个行业中的演进。
第一个阶段可以称之为感知 AI,包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等 AI 技术,都属于这个范畴。
这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。
第二个阶段是生成式 AI,是随着 ChatGPT 的兴起而来的,这一阶段主要基于大量数据进行预训练,并在人类监督下完成某类具体任务。
包括文生图、聊天机器人,或是利用大模型进行翻译等在内,都属于 " 生成式 AI"。

第三个阶段,我们称之为智能体 AI。
与生成式 AI 相比,智能体 AI 可以在几乎没有人类监督或无干预的情况下,进行自主行动、预测、意图理解与任务编排。
我们能够看到,尽管目前行业关注点仍然集中在生成式 AI 上,但整个产业其实正呈现出从生成式 AI 向智能体 AI 演进的路线。
第四个阶段,我们叫做物理 AI。
在这个阶段,AI 可以理解真实的物理世界,并根据真实的物理定律与规律做出相应的反馈和响应。
目前,物理 AI 尚处于研究和探索的初期。
端侧 AI 的优势和挑战
我们看到在终端侧生成式 AI 的生态中,模型尺寸正在不断增大——
目前手机可以支持将近 100 亿参数的大模型部署;
PC 可以支持约 200 亿参数的大模型终端侧部署;
在车载场景中,模型支持的规模则更大,可部署的参数量级已达到 200 亿至 600 亿之间。

在模型尺寸不断扩大的同时,模型质量也不断提升。
今年年初我们已经能够将支持思维链(CoT)和推理能力的模型完全部署在端侧。
同时,端侧模型所支持的上下文长度也在显著增长——从两年前端侧仅能处理 1K 到 2K 的上下文,到去年已提升至 4K,而今年则已能够支持 8K 到 16K 的典型用例在端侧进行部署。
事实上,就像我们在今年 9 月的骁龙峰会上展示的那样,在某些特殊场景下,已经可以实现 128K 上下文窗口的端侧大模型部署。
从模态的角度来看,终端侧 AI 也呈现出从单一的文字模态,向支持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋势。

再来看一下在端侧运行 AI 的优势,以及所面临的挑战。
我们认为在终端侧运行大模型或 AI,最大的好处之一是个性化——
数据的产生都在终端侧,在距离数据产生最近的地方做推理,是自然而然的事情,同时也非常有利于保护用户的隐私和安全。
和云端相比,端侧还具备两个优势,一是完全免费,二是无需任何网络连接。
那么挑战有哪些呢?在这里我想着重分享两点。
首先是内存限制,终端侧有限的内存大小限制了可运行模型参数量的大小,从而约束了终端侧模型的能力上限。
其次是带宽限制,终端侧有限的带宽决定了 AI 的推理速度,因此会影响用户体验。
当然,在手机这类集成度非常高的终端去运行大语言模型,对能效控制也提出了极致要求,因为如果功耗过高,就容易触发设备的温控机制。

面对这些挑战,高通公司都有哪些技术储备和预研呢?
第一是量化和压缩。从 8 bit、4 bit 到今年实现的 2 bit,通过更极致的量化压缩,我们使端侧能够支持的模型尺寸越来越大,其所占用的内存越来越小;
第二是在端侧带宽约束下,我们采用并行解码技术以提高大语言模型的 token 速率;
第三是通过先进的 NPU,包括 eNPU 的架构和领先的异构计算系统,我们让端侧 AI 从以往的被动式服务向主动式、个性化的 AI 服务迈进。

接下来,我想就并行解码技术再进行展开讲解。
当前大语言模型大部分是基于自回归架构,它需要把所有的输入和权重全部加载到内存中,才能生成一个 token。
从效率的角度来讲,这是非常不经济的行为。尤其是随着模型规模持续增大,token 的生成速度会非常慢,进而导致时延增加、影响用户体验。
高通通过并行解码技术,先在端侧运行一个较小的草稿模型,一次性推理出多个 token,然后将这些 token 交予原始的、较大的模型进行校验。

因为草稿模型是基于原始大模型训练而来,在原始大模型上进行 token 验证时,能够保证较高的接受率,从而实现并行解码,达到提高端侧解码速度的目的。
从生成式 AI 向智能体 AI 演进
我们正处在从生成式 AI 向智能体 AI 演进的路径上。
从用例的角度来讲,生成式 AI 主要能支持关键的 " 单体 " 用例,比如实时翻译、文生图或者内容创作、摘要、续写等任务。

智能体 AI 是更复合、更复杂、更主动式的 AI 服务。
实现智能体 AI 需要许多基础模块,首先需要一个具有推理能力的大模型,它可以在端侧或者云上运行以理解用户意图;
在理解用户的意图和任务之后,智能体可以通过查询个人知识图谱等个人本地数据,生成个性化的任务编排;
最后,智能体还要通过调用本地或云上的 API 执行相应的任务。

下面可以看一个具体的智能体 AI 用例。
用户可以利用智能体发布微博,这个过程中首先要通过自然语言和智能体进行交互。
当智能体理解了用户 " 需要发布微博 " 的意图后,会打开微博 APP,搜索需要发布的照片,同时根据用户过往的个人偏好给照片加滤镜,最终完成整个发布过程。
不仅如此,用户还可以通过自然语言交互监测回复,并进行相应操作,比如我特别喜欢某个评论时,可以去点赞或回复。
这个用例在今年 9 月的骁龙峰会上进行展示时,整个流程是全部运行在端侧的。
除了手机之外,高通的芯片也覆盖了丰富品类的产品,包括智能眼镜、PC、汽车、智能手表、IoT 等产品,并且我们能够支持所有骁龙设备之间的智能互联。

大家可以想象一下,智能眼镜、智能手表等算力较小的设备,可以通过 Wi-Fi 或者蓝牙与手机、汽车连接,去共享它们之间的本地数据,将大模型推理从较小设备中转移到手机、PC 甚至汽车等算力较大的设备上,实现分布式的个性化大模型推理。
最后,我们相信 AI 体验在未来会向混合 AI的方向发展。

也就是说,在终端侧运行垂类的、比较高效的模型,提供更好的、更安全的个性化 AI 服务;在云端,运行更大尺寸的模型,提供能力更强、更通用、更极致的 AI 服务。
高通公司也将凭借低时延、高速且安全的连接技术,确保混合 AI 场景下的端云协同和端云连接。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦