零镜网 06-30
英特尔Day0完成百度文心4.5系列模型的端侧部署
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天,百度正式发布文心大模型 4.5 系列开源模型。英特尔 OpenVINO 与百度飞桨多年来一直保持着紧密的合作。在此次文心系列模型的发布过程中,英特尔借助 OpenVINO 在模型发布的第零日即实现对文心端侧模型的适配和在英特尔酷睿 Ultra 平台上的端侧部署。

OpenVINO 工具套件是由英特尔开发的开源工具套件,旨在优化和加速深度学习模型的推理性能,支持跨平台部署并充分利用英特尔硬件资源。OpenVINO 助力行业中广泛的先进模型在英特尔人工智能产品和解决方案中的性能,应用在 AI PC、边缘 AI 和更多人工智能的使用场景当中。

从 2021 年开始,百度飞桨和英特尔 OpenVINO 进行深入合作,双方进行深度适配,为开发者提供了更有效更便捷的 AI 开发工具链。经过双方适配的众多模型,如 PaddleOCR,PaddleSeg,PaddleDection 等,在金融、医疗、智能智造等领域被广泛应用,开发者可以直接将飞桨模型用 OpenVINO 推理和部署,或通过 OpenVINO 的模型优化器转化为 IR 格式,进一步部署和推理。

今天,百度基于多年积累的雄厚的 AI 技术实力,为业界带来了开源的文心 4.5 系列大模型。英特尔宣布 OpenVINO 已经对 0.3B 参数量的稠密模型成功适配,并在英特尔酷睿 Ultra 平台上成功部署且获得了优异的推理性能。

英特尔助力百度文心大模型的首次亮相,共同为行业带来全新的人工智能体验。接下来,英特尔将持续与百度保持紧密合作,适配更多的文心系列模型,携手拓宽 AI 技术的新边界。

快速上手指南 ( Get Started )

第一步,环境准备

基于以下命令可以完成模型部署任务在 Python 上的环境安装。

第二步,模型下载和转换

在部署模型之前,我们首先需要将原始的 PyTorch 模型转换为 OpenVINO 的 IR 静态图格式,并对其进行压缩,以实现更轻量化的部署和最佳的性能表现。通过 Optimum 提供的命令行工具 optimum-cli,我们可以一键完成模型的格式转换和权重量化任务:

开发者可以根据模型的输出结果,调整其中的量化参数,包括:

– model: 为模型在 HuggingFace 上的 model id,这里我们也提前下载原始模型,并将 model id 替换为原始模型的本地路径,针对国内开发者,推荐使用 ModelScope 魔搭社区作为原始模型的下载渠道,具体加载方式可以参考 ModelScope 官方指南:

– weight-format:量化精度,可以选择 fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64

– group-size:权重里共享量化参数的通道数量

– ratio:int4/int8 权重比例,默认为 1.0,0.6 表示 60% 的权重以 int4 表,40% 以 int8 表示

– sym:是否开启对称量化

第三步,模型部署

针对 ERNIE-4.5 系列的文本生成类模型,我们可以使用 Optimum-Intel 进行任务部署和加速。Optimum-Intel 可以通过调用 OpenVINO   runtime 后端,以实现在 Intel CPU 及 GPU 平台上的性能优化,同时由于其兼容 Transformers 库,因此我们可以直接参考官方示例,将其迁移至 Optimum-Intel 执行。

输入结果参考:

相关标签

英特尔 百度 ai 人工智能 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦