一、前言:哪个发烧友能抵挡本地部署大模型的诱惑
今年年初,横空出世的 DeepSeek AI 大模型火爆出圈,一夜过后人人都在谈论 DeepSeek 大模型,而已经进入第二年的 AI PC 方面,自然也不会落后。
相对于直接付费使用成熟的 AI 应用,DeepSeek 完全开源的特性也让更多发烧友乐于在本地部署,充分利用越发强大的硬件 AI 性能。
但是对于主流的笔记本平台,在本地运行 DeepSeek 大模型,效果如何呢?
我们找来了当下比较新的轻薄本,Intel 平台和 AMD 平台各一台,测试一下不同平台在本地运行 DeepSeek 大模型的表现。
当然我们在本地部署的 DeepSeek 只能是蒸馏版,因为满血版 DeepSeek-R1 模型高达 671b 的参数根本不是小飞机平台所能容纳的,好在还有六个蒸馏后不同规模的小模型,方便玩家根据自己的硬件配置选择合适的模型规模。
DeepSeek-R1 大模型和由它蒸馏而来的六个小模型都是开源的,每个人都可以下载部署到自己的设备上。
选择合适的模型规模,关键就在于运行设备的显存或内存容量,当然对于普通玩家,特别是笔记本用户来说,主要还是看内存大小。
这也就是 AI PC 概念出现以来,电脑的内存容量已经普遍从 32GB 起步的原因,就连被戏称 " 用金子做内存 " 的苹果,最新的 Mac Mini M4 也把内存升级到 16GB 起步。
二、测试平台介绍:各有优势 但都是最强移动处理器的竞争者
条件所限,我们没有找到两台完全对等的笔记本进行对比,只能选取比较接近的配置,分别搭载了 Intel 酷睿 Ultra 9 285H 处理器、AMD 锐龙 AI 9 HX370 处理器,都是各自平台轻薄本能搭载的最强处理器,定位上旗鼓相当。
Intel 酷睿 Ultra 9 285H 处理器基于 Arrow Lake 架构,拥有 6 个性能核,8 个能效核和 2 个低功耗能效核,一共 16 核心,但不支持超线程技术,所以总线程数也是 16, 性能核最大睿频频率为 5.4GHz,拥有 24MB 高速缓存。
它内建 Intel 锐炫 140T 显卡,包含 8 个 Xe 核心,同时还内置 NPU,能够提供高达 13 TOPS 的算力。
CPU+GPU+NPU 全平台总算力达到 99 TOPS,为本地运行大模型提供了很好的支撑。
AMD 锐龙 AI 9 HX370 处理器基于 Zen 5 架构,4 个 Zen 5 核心和 8 个 Zen 5c 核心,支持超线程技术,总共是 12 个核心 24 线程,最高加速频率为 5.1GHz,拥有 12MB 的 L2 高速缓存和 24MB 的 L3 高速缓存。
内建 AMD Radeon 890M 显卡,包含 16 个 GPU 核心。
当然也有独立的 NPU 引擎,而且算力高达 55 TOPS,是迄今最强的。
需要注意的是,Intel 酷睿 Ultra 9 285H 处理器的 TDP 高达 45W,AMD 锐龙 AI 9 HX370 处理器的 TDP 只有 28W。
当然,Intel 和 AMD 都允许笔记本制造商根据具体产品设计,在一定范围内设定处理器功耗。
我们这次准备的两台笔记本,Intel 方面是一台轻薄本,实际烤机测试 CPU 稳定释放功率只有 35W 左右,而 AMD 方面是一台全能本,还搭载了一块 NVIDIA RTX 4060Laptop 独立显卡(已禁用),拥有更强劲的散热配置和功耗表现,实际烤机测试中可以稳定释放高达 60W 的功率。
笔记本平台并不像台式机主板一样可以方便地在 BIOS 中对 CPU 功耗性能等进行限制,所以这个测试并不是一个非常严谨的性能对比测试,只能说分别测试一下各自的表现情况和我们的使用体验,请读者朋友们自行比较。
三、DeepSeek-R1 模型测试:iGPU 算力也可流畅运行本地部署的 14B 模型
Ollama 是一个开源的大语言部署服务工具,只需 iGPU 即可部署大模型。
我们这次测试就是基于 Ollama 框架,在本地部署 DeepSeek-R1 的蒸馏版模型,测试使用 iGPU 的运行效率。
Ollama 作为一个开源软件,功能依赖全球开发者的共同维护,自然也会有一些特别的分支。
我们此次测试,专门找来了针对 intel 推理框架和 AMD ROCm 推理框架分别优化过的 Ollama 版本,更能体现 Intel 和 AMD 硬件在各自最佳环境下的运行效率。
(左侧为 Intel 酷睿 Ultra 9 285H 运行截图,右侧为 AMD 锐龙 AI 9 HX370 运行截图)
为了避免图形 UI 造成的延迟和对性能的影响,我们直接在命令行中同 DeepSeek-R1:14B 模型进行对话,我们准备了 4 个问题,分别是:
你是谁?
最简单的问题,用来检查 DeepSeek 大模型是否正确工作。
模仿李白的风格,写一首七律 · 登月。
简单的文字写作能力。
一亿之内最大的质数是多少?
数学能力其实不是 DeepSeek 这种推理模型的长处,但也可以测试一下。
帮我写一份 5 月份前往南疆的旅行攻略。
对 DeepSeek 的语义理解 / 推理能力和文字写作能力进行测试。
同样我们对 DeepSeek-R1 大模型另外两个更小规模的蒸馏版本 7B 和 1.5B,也都进行了测试,测试成绩汇总如下:
模型规模越小,执行速度越快,但相对的 AI 智力下降也非常明显,经常会出现无法回答或者先入死循环的状态。
14B 规模的模型的反应速度和回答准确率表现都比较优秀,在测试平台上运行效果非常好(但数学问题的回答准确度还是不太行)。
从测试结果上来看,Intel 酷睿 Ultra 9 285H 在针对 Intel 优化过的 Ollama 上的每秒 token 输出更高一些,在 14B 和 7B 规模模型中,对比 AMD 锐龙 AI 9 HX370 都有 40% 左右的领先,而在 1.5B 规模模型中,双方性能表现都很强,但 Intel 平台仍有 5% 左右的优势。
当然这个测试也并不能代表 Intel 处理器在 AI 性能上就一定比 AMD 处理器强很多,每秒输出的 Token 数也不是决定 AI 性能表现的唯一评价维度,但至少从实际测试的结果上来看,针对 Intel 优化过的框架确实拥有更好的支持,让 Intel 处理器的性能表现更强。
四、AI 大模型能力测试:Deepseek-R1:14B 模型编程已经实用
我们也测试了一下 Deepseek-R1:14B 模型在 Intel 酷睿 Ultra 9 285H 处理器的轻薄本上实际表现,测试一下使用本地 Intel iGPU 算力来编程,效果如何。
我们首先安装了一个针对 Intel 酷睿 Ultra 处理器优化的 AI 应用工具:Flowy AI PC 软件,然后在其中使用 Deeoseek-R1:14B 模型来编写一个基于 HTML 语言的贪吃蛇游戏。
按照 Deepseek 给出的操作说明,我们很容易就可以把这个由 AI 写出来的贪吃蛇游戏运行起来,虽然比较简陋,但基本的游戏功能已经没有问题了。
Intel 酷睿 Ultra 9 285H 处理器搭配 Deepseek-R1:14B 模型,能力已经具备一定实用价值了,已经可以帮助用户提高编程速度和工作效率了。
五、总结:Intel 全力推广 OpenVINO 效果已经开始展现
得益于 DeepSeek 的开源,让本地部署 AI 大模型变的前所未有的容易,即使是在轻薄本这种并不以性能见长的移动平台上,运行本地大模型也能有相当不错的性能表现。
在我们的测试中,Intel 酷睿 Ultra 9 285H 处理器展现出相当强劲的实力,使用开源部署工具 Ollama(Intel 优化版),在本地部署 DeepSeek-R1:14B,仅依靠 CPU 的算力,就可以实现接近 10 Token/s 的输出速度,比 AMD 锐龙 AI 9 HX370 处理器的输出高了 40% 以上,而且这个成绩还是在 CPU 实际功率相差接近一倍的情况下得出的。
这也从一个侧面说明,AI 大模型的高效运行,不仅仅是硬件性能的问题,软件的适配同样重要,甚至比硬件性能更重要一些。
就像谈论 AI 算力,NVIDIA 是个绕不开的名字一样,NVIDIA 的 CUDA 和硬件相辅相承,共同构成了宽阔的护城河,Intel 和 AMD 作为追赶者,必须付出巨大的努力和代价才有机会在这个领域挑战 NVIDIA 的地位。
Intel 现在不遗余力地推广 OpenVINO,我们已经看到了结果。也许硬件的真实性能强弱难以量化比较,但从我们这次的体验来看,Intel 酷睿 Ultra 9 285 处理器在用户实际使用中,确实能发挥出比 AMD 锐龙 AI 9 HX370 处理器更强的性能。
再加上 Intel 连续举办的人工智能创新应用大赛,用真金白银鼓励开发者开发基于 OpenVINO 的 AI 应用,Intel 平台的 AI 应用正在迎来一个百花齐放的时代。
DeepSeek 大模型极大地抹平了桌面平台面临的算力鸿沟之后,AI 应用的丰富程度,专用推理架构的普及程度,硬件性能的发挥水平,共同决定了谁才是 AI PC 时代的王者。
Intel 现在在全力推广 OpenVINO,我们也不希望 AMD 被拉开太远,NVIDIA 算力霸权的挑战者越多越好。
登录后才可以发布评论哦
打开小程序可以发布评论哦