DeepSeek发布mlx-dspark工具,苹果M芯片本地大模型推理提速60%

近期 DeepSeek 正式开源 mlx-dspark 苹果芯片原生专用工具，全面适配全系列 M 芯片 Mac 电脑。工具依托 MLX 底层框架重构模型解码运算逻辑，实测运行 Qwen3、Gemma-4 等主流大模型，本地生成速度最高提升 1.6 倍，工具完全免费，个人开发者、小型 AI 工作室均可直接下载使用。

很多使用 Mac 做本地 AI 的开发者都有相同困扰：M 系列芯片算力本身很强，但市面上多数开源工具适配粗糙，模型加载慢、文字生成卡顿，跑 7B、14B 参数大模型等待时间很长。这款 mlx-dspark 专门针对苹果硬件深度优化，从底层解码逻辑入手，大幅释放 Mac 本地端侧 AI 性能。

一、原生适配苹果 M 芯片，基于 MLX 框架重构解码逻辑

mlx-dspark 是 DeepSeek 专为苹果自研芯片打造的专属推理工具，核心优化逻辑全部围绕 MLX 框架展开：

重写大模型解码核心流程普通本地工具只是简单调用 MLX 基础接口，没有做深度调度优化。本次工具重新设计 Token 解码、缓存读写流程，减少内存反复读写损耗，大幅降低算力资源浪费。

统一调度 CPU、GPU、NPU 混合算力 Mac M 芯片采用统一内存架构，工具可以自动分配模型运算任务，轻量文本计算交给 CPU，多模态推理、大模型解码交给 GPU 与神经网络引擎，硬件资源利用率拉满。

兼容全代 M 系列设备从入门 M1、M2，到高性能 M3、M4 Pro/Max 芯片全部适配，不管是轻薄 MacBook，还是 Mac Studio、Mac mini，都能获得明显加速效果，老旧苹果设备也能流畅运行本地大模型。

二、实测性能大幅提升，主流模型最高提速 1.6 倍

官方给出实测数据提升效果十分直观，日常本地跑模型体验差距明显：

整体推理速度提升 60% 起步常规文本问答、文档总结场景，运行速度稳定提升 60%，原本 10 秒生成的内容，现在仅需 4 秒左右，等待时间大幅缩短。

Qwen3、Gemma-4 模型最高提速 1.6 倍针对当下热门开源大模型 Qwen3、Gemma-4 做专项适配，长文本续写、批量文档分析场景下，生成速度直接提升 1.6 倍，处理万字长文档几乎无卡顿。

内存占用同步优化优化缓存回收机制，同等参数模型运行时占用内存更低，16G 内存 Mac 也能稳定加载 14B 量化模型，不会出现闪退、内存溢出问题。

三、免费无门槛开放，适配个人开发者与 AI 工作室

这款工具采取完全开源免费模式，无付费订阅、无商用限制，受众覆盖两类核心人群：

个人独立开发者平时在 Mac 上调试本地大模型、做私人知识库、离线 AI 助手，下载工具即可一键部署，不用付费购买推理软件，降低个人学习、开发成本。

小型 AI 工作室很多小型 AI 团队主力开发设备都是 Mac 电脑，批量做文案生成、本地模型微调、行业知识库测试，批量设备部署工具无授权费用，节省工作室软件采购开支。

操作门槛很低，仅需简单命令行即可完成模型导入、一键启动本地推理，新手不用复杂配置，开箱就能使用加速功能。

四、工具落地带来的实际价值

释放苹果设备本地 AI 潜力过去 Mac 用户跑本地大模型性能发挥不全，mlx-dspark 打通硬件底层调度，让 M 芯片统一内存架构优势完全发挥，不用额外购置算力服务器。

离线本地 AI 使用体验质变不用依赖云端 API，断网环境也能高速运行大模型，所有数据保存在本地电脑，聊天记录、文档素材不会上传外网，兼顾速度与隐私安全。

降低 AI 开发入门成本普通开发者依靠一台 Mac 就能完成模型测试、本地应用开发，无需租赁云算力，学生、小型创作者低成本开展 AI 相关开发工作。

宙世代

一起剪

相关标签