在 AI 迈入多模态时代的当下," 让大模型上手机 "成为产业落地的焦点。
现有 MLLM 在手机端部署时常面临两大难题:
1、纯语言任务性能下降:现有的端侧 MLLM 在纯文本的任务上表现不尽人意;
2、手机 NPU 不支持 MoE 架构:而 MoE 架构恰恰是多模态训练中保持语言能力的常用手段(比如 CogVLM,Wings)。
vivo AI 研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在 MLLM 训练中维持纯语言能力,并基于此提出了 GenieBlue ——专为移动端手机 NPU 设计的高效 MLLM 结构方案。目前已被 ICCV 2025 接收。
主要贡献和技术亮点
1、现有端侧 LLM 在支持多模态功能后,纯语言任务准确率下降超 10%。GenieBlue 通过冻结原始 LLM 参数,并引入复制的 Transformer 层和轻量化的 LoRA 模块,在多模态训练的过程中保留原始的语言能力。
2、通过大规模微调,GenieBlue 达到与主流 MLLM 相媲美的多模态能力,并完全保留原始纯语言性能。
3、避开当前 NPU 不支持的 MoE 架构,采用不共享基座的推理策略。在搭载高通骁龙 8 Elite(第四代)芯片的手机上实现流畅运行。
技术背景
1、当前的端侧 MLLM 无法取得令人满意的纯语言能力
在 MATH(客观难题)、AlignBench 和 MT-Bench(主观题)上测试主流开源 MLLM 的纯语言能力,并与原始 LLM 进行了对比。
其中,Wings 是 NeurIPS 2024 提出的多模态训练中保持语言能力的方案。测试结果表明,当前多模态大模型虽然在图文任务上表现优异,但在纯语言任务上普遍存在显著性能下降,降幅大多超过 10%。相比之下,GenieBlue 在保持多模态能力的同时,未出现任何纯语言能力的损失。
2、目前主流的手机 NPU 平台尚不支持部署 MoE 结构
由于 MoE 架构对内存带宽和容量要求较高,主流移动端 NPU 平台尚未提供支持。测试显示,包括联发科天玑 9400 和高通骁龙 8 Elite 在内的旗舰 SoC,其 NPU 均无法有效部署标准 MoE 模型。
基于上述两个发现,团队从训练数据和模型结构两个方面详细探讨了多模态训练过程中保持纯语言性能的方法。
语言性能维持 - 数据角度
在 MLLM 训练过程中,保持纯语言能力最直接常用的方法是在训练数据中加入纯文本数据。目前 InternVL2.5 和 Qwen2.5-VL 都采用了这种方法。但这种方法存在两个主要问题:一是难以收集大量高质量的纯文本指令微调数据,特别是针对主观性 NLP 任务的数据;二是在 MLLM 训练中加入大量纯文本数据会显著增加训练时间。
为了验证该方法的有效性,从 ViT 与 LLM 开始全量微调一个 MLLM。具体地,模型基于面向手机端部署的 BlueLM-V-3B 架构,ViT 部分使用 SigLIP,LLM 部分使用 BlueLM-3B 或 Qwen2.5-3B。训练流程参考 Cambrian-1,先用提供的 250 万对齐数据预训练,再用 700 万数据进行微调。为对比,在微调阶段额外加入 200 万纯文本数据,主要来自 InternVL2.5,如下表所示。
在 7 个常见 LLM 测评集和 7 个常见 MLLM 测评集上测试了模型的训练效果,得到两个主要结论:
1、加入纯文本数据对多模态能力影响有限
在训练中引入了包含 200 万样本的额外纯语言数据,发现模型的多模态能力几乎未受影响。这一现象表明,在多模态大模型训练过程中,适量加入纯文本数据对模型的多模态表现并无显著影响。
2、纯文本数据对客观类 NLP 任务有一定提升,但对主观类任务帮助不大
引入 700 万多模态数据后,原始语言模型在客观与主观语言任务上的表现均出现明显下降。为缓解这一问题,团队借鉴 InternVL2.5 的方法,额外加入了 200 万条纯文本数据进行训练。然而由于目前缺乏足够高质量的人类对齐数据,这部分纯文本仅在客观 NLP 任务上带来部分性能恢复,对主观任务几乎无帮助。这表明,当前通过添加纯文本来维持语言模型原有能力仍面临较大挑战。
语言性能维持 - 模型结构角度
上述实验表明,仅靠增加纯文本数据来维持多模态大模型的语言能力效果有限。为此,另一类方法尝试通过架构设计来增强语言表现,例如 CogVLM 和 Wings 采用 MoE 结构来提升模型性能。
然而在实际部署中发现,Wings 虽然设计复杂,但纯语言任务性能平均下降超过 20%,无法满足实际应用需求;而 CogVLM 在每个 Transformer 层旁边加上视觉专家模块,并冻结原始语言模型,从而在多模态输入下保持其纯语言能力不变。
尽管这一方式在精度上更稳定,但也存在两大问题:
其一,部署时需同时加载 LLM 和视觉专家模块,显著增加内存开销;
其二,当前手机 NPU 尚不支持 MoE 模型运行,导致模型难以在移动端真正落地。
这些挑战说明,提升语言能力与实现高效部署之间仍需更好的权衡策略。
为完整评估 CogVLM 方法在多模态训练中的效果,基于 BlueLM-3B 和 Qwen2.5-3B 两种语言模型进行实验。为缓解部署中的内存压力,仅在 1/4 的 Transformer 层中加入视觉专家模块,分别尝试插入在前 1/4(Pre)、后 1/4(Post)和每隔 1/4(Skip)的位置。同时,对其余层的注意力和前馈模块加入 LoRA 权重。在此基础上,将三种 CogVLM 策略与全量微调和全 LoRA 训练进行对比,并列出训练中涉及的可学习参数量(包括 ViT 和投影层)。
这一实验有助于理解不同多模态训练策略在性能和参数效率之间的权衡。得到两个主要结论:
1、与全量微调相比,LoRA 和 CogVLM 方法都会不同程度地削弱多模态大模型的性能。
由于可训练参数数量受限,LoRA 和 CogVLM 的多模态性能仍略低于全量微调,但整体已可达 90% 以上。其中,CogVLM 在多模态表现上优于 LoRA。值得注意的是,全量微调虽然多模态能力最强,但会显著削弱纯文本任务的效果;相比之下,LoRA 和 CogVLM 采用不共享基座模型的部署策略,在提升多模态能力的同时,能够保持纯文本性能不受影响。
2、对于 CogVLM,将视觉专家模块均匀插入至整个模型的 1/4 层位置,能够实现最佳的 MLLM 性能表现。
在 CogVLM 方法中,将视觉专家模块添加到每 1/4 层的位置(即每隔若干层插入一次,覆盖总层数的 1/4),能使多模态大模型的性能达到全量微调的 96% 以上。同时,CogVLM 的训练方式不会影响纯文本任务表现,基于此,团队选择以此方法为基础设计了 GenieBlue。
GenieBlue 的设计
1、模型结构
基于 CogVLM 结构进行改进,重点考虑了当前手机 NPU 对 MoE 架构的限制。CogVLM 的核心思想是将文本和多模态信息分开处理,采用 MoE 架构由不同专家分别负责文本和视觉 Token。而设计原则则绕开 MoE,通过为 LLM 和多模态模型部署选择不同权重,保持原始 LLM 架构在多模态推理时不变。
GenieBlue 框架如上图所示。为节省手机端模型存储和部署内存,在 LLM 中每 1/4 的位置复制一组 Transformer 层,其余层加入 LoRA 模块。
在多模态训练阶段,冻结原始 LLM,仅对 ViT、投影层、复制的 Transformer 块和新增的 LoRA 参数进行训练。
推理时采用不共基座的部署策略。纯文本任务使用未修改的原始 LLM 计算;多模态任务则用训练好的复制 Transformer 块替换对应层,同时在其余层添加 LoRA 参数。这种不共基座策略有效避免了 MoE 架构,将 LLM 和多模态模型推理解耦。实际 NPU 部署时,只需替换权重并加载 LoRA 模块,简化了部署流程,提高了效率。
基于 250 万预训练数据和 900 万微调数据,使用 BlueLM-3B 和 Qwen2.5-3B 两种语言模型,将提出的 GenieBlue 与全量微调和 CogVLM 方法进行了对比评测。
GenieBlue-Skip 实现了最佳的多模态性能表现,且优于 CogVLM-Skip 方法。
2、不共基座部署方案
通过将 LLM 和 MLLM 的推理过程分离,采用 GenieBlue 的不共基座部署策略可以有效保持原始 LLM 的纯语言能力。
为验证该策略的重要性,在 LLM 基准测试中对比了共基座和不共基座两种部署方式。共基座表示将 LLM 和多模态模型推理流程合并,纯文本任务推理时也使用全训练的 Transformer 层和 LoRA 模块。此外还展示了 BlueLM-3B 和 Qwen2.5-3B 在全量微调和全 LoRA 训练下的 NLP 性能。
采用不共基座的部署策略,在纯文本任务上表现出显著优于共基座部署的语言能力。
训练和部署方案
基于对训练数据和模型结构的分析,最终确定了 GenieBlue-Skip 模型结构及不共基座部署策略。
1、训练方案
采用 GenieBlue-Skip 结构,严格按照 BlueLM-V-3B 的训练方案和数据进行训练。训练分两阶段:第一阶段使用 250 万预训练数据,仅训练 MLP 投影层,冻结 ViT 和 LLM;第二阶段用 6.45 亿微调数据,微调 ViT、投影层、复制的 Transformer 块及新增的 LoRA 参数,保持原始 LLM 冻结。训练中,ViT 采用 SigLIP,LLM 为 BlueLM-3B,LoRA 秩设置为 8。
2、部署方案
将 GenieBlue 部署在搭载高通骁龙 8 Elite(第四代)SoC 的 iQOO 13 手机 NPU 上,采用高通 QNN SDK 进行模型部署。ViT 和投影层采用 W8A16 量化,LLM 采用 W4A16 量化,新增的 LoRA 参数同样使用 W8A16 量化。目前支持单 Patch 的 ViT 推理。需要特别说明的是,骁龙 8 Elite 的 NPU 平台暂不支持 MoE 架构的部署。
GenieBlue 的准确率和部署效果
团队验证了 GenieBlue 的多模态、纯语言准确率以及在手机 NPU 上的部署效率。
1、多模态准确率
GenieBlue 与参数量小于 40 亿的其他 MLLM 进行了对比。GenieBlue 的多模态准确率略低于 Qwen2.5-VL-3B,但保留了 BlueLM-V-3B 约 97% 的性能。此外,GenieBlue 在平均表现上略优于 InternVL2-8B。
2、纯语言准确率
GenieBlue 最大特点是采用不共基座部署策略,能够保持原始语言模型性能不受影响。在多个代表性基准测试上对其语言能力进行了评测。作为对比,选择了通过加入纯文本数据保持语言性能的 Qwen2.5VL-3B。GenieBlue 在语言能力上无任何下降,而 Qwen2.5VL-3B 尤其在主观任务中存在一定程度的性能退化。这表明,与单纯增加纯文本数据相比,目前探索模型结构设计更有助于维持语言模型的纯文本能力。
3、部署效率
在搭载高通骁龙 8 Elite(第四代)SoC 的设备上,采用不共基座部署策略实现了 GenieBlue,支持单 Patch 的 ViT 推理,并展示了 BlueLM-V-3B 与 GenieBlue 的部署效率对比。由于增加了 LoRA 参数,GenieBlue 的模型加载时间稍长,存储和内存需求略增,输出速度略有下降,但 30token/s 的速度完全满足移动设备的日常使用需求。
总结
本文从移动设备实际部署出发,聚焦如何保持纯语言能力,深入分析了训练数据和模型结构两方面的影响,探索有效策略。基于这些分析提出 GenieBlue ——专为移动端打造的高效且硬件友好的多模态大模型,能够融合语言理解与多模态能力。GenieBlue 在训练时冻结原始语言模型参数,利用复制的 Transformer 层和轻量的 LoRA 模块获得多模态能力,既保持了语言性能,又实现了有竞争力的多模态表现。在智能手机 NPU 上的部署验证了其实际可行性和高效性,是移动端边缘计算的有力解决方案。团队期待此项工作为该领域未来研究带来有益启示。
论文地址:
https://arxiv.org/pdf/2503.06019
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦