手机中国 昨天
量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【CNMO】12 月 10 日,量子位 MEET2026 智能未来大会在北京启幕。本届大会以 " 共生无界 智启未来 " 为主题,打造了一个跨领域、高密度的交流平台。近三十位来自科技、产业及学术领域的领军人物齐聚一堂,围绕人工智能 +、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题发表前瞻观点,展开深度对话。

高通公司 AI 产品技术中国区负责人万卫星出席大会,并发表了以 " 混合 AI:从云端到边缘智能 " 为主题的演讲。万卫星指出,当前 AI 正从生成式 AI 向智能体 AI 演进;生态系统从单体模型转向复合模型,将成为迈向智能体 AI 的基础。他还在演讲中特别提到,未来的 AI 体验将朝着混合 AI 方向扩展。为达成这一愿景,高通已经通过量化压缩、并行解码、NPU 及异构计算架构等技术创新,推动端侧 AI 向更主动、更高效的服务形态发展,构建端云协同体系,为用户提供更个性化的智能服务。

以下为演讲全文:大家上午好!我是高通技术公司万卫星。今天我想跟大家分享一下高通在终端侧 AI 以及混合 AI 上的成果和思考。

首先,我们来看一下 AI 应用在整个行业中的演进。第一个阶段可以称之为 " 感知 AI",包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等 AI 技术,我们都称为感知 AI。这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。

第二个阶段,是随着 ChatGPT 的兴起而来的。这一阶段主要基于大量数据进行预训练,并在人类监督下完成某类具体任务,包括文生图、聊天机器人,或是利用大模型进行翻译等,这些都属于 " 生成式 AI" 的范畴。

第三个阶段,我们称之为 " 智能体 AI"。与生成式 AI 相比,智能体 AI 可以在几乎没有人类监督或无干预的情况下,进行自主行动、预测、意图理解与任务编排。我们能够看到,尽管目前行业关注点仍然集中在生成式 AI 上,但整个产业其实正呈现出从生成式 AI 向智能体 AI 演进的路线。

第四个阶段,我们叫做 " 物理 AI"。在这个阶段,AI 可以理解真实的物理世界,并根据真实的物理定律与规律做出相应的反馈和响应。目前,物理 AI 尚处于研究和探索的初期。

我们看到在终端侧生成式 AI 的生态趋势中,随着模型尺寸的不断增大,目前手机可以支持将近 100 亿参数的大模型部署,PC 可以支持约 200 亿参数的大模型终端侧部署。在车载场景中,模型支持的规模则更大,可部署的参数量级已达到 200 亿至 600 亿之间。

在模型尺寸不断扩大的同时,模型质量也不断提升。今年年初我们已经能够将支持思维链(CoT)和推理能力的模型完全部署在端侧。在能力上所支持的上下文长度也在显著增长——从两年前端侧仅能处理 1K 到 2K 的上下文,到去年已提升至 4K,而今年则已能够支持 8K 到 16K 的典型用例在端侧进行部署。事实上,在今年 9 月的骁龙峰会上,我们展示了在某些特殊场景下,已经可以实现 128K 的文本在端侧的大模型部署。

从模态的角度来看,终端侧 AI 也呈现出从单一的文字模态,向支持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋势。

我们再来看一下在端侧运行 AI 的优势,以及所面临的挑战。我们认为在终端侧运行大模型或 AI,在终端侧运行大模型,最大的好处之一是个性化,数据的产生也都在终端侧,在距离数据产生最近的地方做推理,是自然而然的事情,同时也非常有利于保护用户的隐私和安全。和云端相比,端侧还具备两个优势,一是完全免费,二是无需任何网络连接。

那么挑战有哪些呢?在这里我想着重分享两点。首先是内存限制,终端侧有限的内存大小限制了可运行模型参数量的大小,从而约束了终端侧模型的能力上限;其次是带宽限制,终端侧有限的带宽决定了 AI 的推理速度,因此会影响用户体验。当然,在手机这类集成度非常高的终端去运行大语言模型,对能效控制也提出了极致要求,因为如果功耗过高,就容易触发设备的温控机制。

面对这些挑战,高通公司都有哪些技术储备和预研呢?第一是量化和压缩。从 8 bit、4 bit 到今年实现的 2 bit,通过更极致的量化压缩,我们使端侧能够支持的模型尺寸越来越大,其所占用的内存越来越小;第二是在端侧带宽约束下,我们采用并行解码技术以提高大预言模型的 token 速率;第三是通过先进的 NPU,包括 eNPU 的架构和领先的异构计算系统,我们让端侧 AI 从以往的被动式服务向主动式、个性化的 AI 服务迈进。

接下来,我想就并行解码技术再进行展开讲解。当前大语言模型大部分是基于自回归架构,它需要把所有的输入和权重全部加载到内存中,才能生成一个 token。从效率的角度来讲,这是非常不经济的行为。尤其是随着模型规模持续增大,token 的生成速度会非常慢,进而导致时延增加、影响用户体验。高通通过并行解码技术,先在端侧运行一个较小的草稿模型,一次性推理出多个 token,然后将这些 token 交予原始的、较大的模型进行校验。因为草稿模型是基于原始大模型训练而来,在原始大模型上进行 token 验证时,能够保证较高的接受率,从而实现并行解码,达到提高端侧解码速度的目的。

我们正处在从生成式 AI 向智能体 AI 演进的路径上。从用例的角度来讲,生成式 AI 主要能支持关键的 " 单体 " 用例,比如实时翻译、文生图或者内容创作、摘要、续写等。智能体 AI 是更复合、更复杂、更主动式的 AI 服务。实现智能体 AI 需要许多基础模块,首先需要一个具有推理能力的大模型,它可以在端侧或者云上运行以理解用户意图;在理解用户的意图和任务之后,可以通过查询个人知识图谱等个人本地数据,生成个性化的任务编排;最后通过调用本地或云上的 API 执行相应的任务。

下面可以看一个具体的智能体 AI 用例:用户可以利用智能体发布微博。首先通过自然语言和智能体进行交互,当它理解了用户 " 用户需要发布微博 " 的意图后,会打开微博 APP,搜索需要发布的照片,同时它还可以根据用户过往的个人偏好给照片加滤镜,最终完成整个发布过程。不仅如此,用户还可以通过自然语言交互监测回复,并进行相应操作,比如我特别喜欢某个评论时,可以去点赞或回复。这个用例在今年 9 月的骁龙峰会上进行展示时,整个流程是全部运行在端侧的。

当然,高通公司除了手机芯片之外,也覆盖了丰富品类的产品,包括智能眼镜、PC、汽车、智能手表、IoT 等,我们能够支持所有骁龙设备之间的智能互联。大家可以想象一下,智能眼镜、智能手表等算力较小的设备,可以通过 Wi-Fi 或者蓝牙与手机、汽车连接,去共享它们之间的本地数据,将大模型推理从较小设备中转移到手机、PC 甚至汽车等算力较大的设备上,实现分布式的个性化大模型推理。

最后,我们相信 AI 体验在未来会向混合 AI 的方向发展,也就是说,在终端侧运行垂类的、比较高效的模型,提供更好的、更安全的个性化 AI 服务;在云端,运行更大尺寸的模型,提供能力更强、更通用、更极致的 AI 服务。高通公司也将凭借低时延、高速且安全的连接技术,确保混合 AI 场景下的端云协同和端云连接。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 高通 卫星 物理 量子位
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论