Redis之父下场，给DeepSeek V4单独造了一台推理引擎

DeepSeek V4，已经开始逼着海外开发者为它修专属高速公路了。

发布才两周，开源圈里，第一批 V4 原生基础设施已经冒了出来。

而且，不是那种在现有框架上套一层壳的 " 小修小补 "。

不是通用 GGUF 加载器；不是 llama.cpp 的 wrapper；甚至压根不支持别的模型。

它只干一件事：

把 DeepSeek V4 Flash，在 Mac 上跑到极致。

这条 " 专属高速公路 "，叫ds4.c。而把修出来的人，分量有点吓人——

Salvatore Sanfilippo，程序员圈更熟悉他的另一个名字：antirez。

他一手创造了 Redis（GitHub 7.4 万 Star），并亲自主导这个全球最流行的内存数据库整整 11 年。

而现在，他的新项目 ds4.c，是一个专门为 DeepSeek V4 Flash 打造的本地推理引擎。

时间线上，已经有网友在 128GB Mac 上把它跑了起来。

可以说，这波，Mac 库存又被 DeepSeek 清了一遍。

鲸鱼，确实值得。

专为 V4 Flash 打造的本地推理引擎

4 月 24 日，DeepSeek 发布 V4 系列。其中，V4 Flash 是效率型号：284B 总参数、13B 激活参数、100 万 token 上下文。

这样的体量，过去几乎默认属于云端。

而 antirez 想做的，是把它塞进一台 Mac。于是，ds4.c 诞生了。

这是一个用C + Metal从头写出来的推理引擎。

整个项目就几个文件，C 占 55.4%，Objective-C 30.2%，Metal 13.8%。Metal-only，没有运行时，没有框架依赖，没有抽象层。

Metal-only。

Metal 是苹果自家的图形和计算 API，在 Mac、iPhone、iPad 上调用 GPU 都靠它，相当于苹果生态里的 CUDA。

ds4 只用 Metal 的意思是，这个引擎只在 Apple Silicon 上跑，不管 Nvidia 显卡，也不管 AMD。

整个项目只有一个目标：

让 V4 Flash 在本地的苹果机器上，不只是 " 能跑 "，而是真正 " 能用 "。

目前测试结果已经相当夸张：

在 128GB 内存的 MacBook Pro M3 Max 上，2-bit 量化、32K 上下文，短 prompt 预填充 58.52 token/s，生成 26.68 token/s。

换成 512GB 的 Mac Studio M3 Ultra，长 prompt（11709 token）预填充能到 468.03 token/s，生成 27.39 token/s。

对一个 284B 参数的 MoE 模型来说，这个速度在本地机器上是可用的。

怎么做到的？

关键在三件事。

第一，非对称量化。

ds4 并不会把所有参数都压到 2-bit，而是只量化路由的 MoE 专家层，up/gate 用 IQ2_XXS，down 用 Q2_K，这些层占了模型空间的绝大部分。

其他组件，共享专家层、投影层、路由层，全部保留 Q8 精度不动。

antirez 在 README 里写了一句很直接的话：

这些 2-bit 量化不是开玩笑，它们在 coding agent 下表现良好，能可靠地调用工具。

第二，KV 缓存搬到硬盘上。

现在的 LLM agent 客户端都是无状态的，每次请求把整段对话重新发一遍。

通用引擎的做法是每次重新做 prefill。

ds4 的做法是把 KV 状态写到磁盘上，下次请求过来匹配 token 前缀，命中了就直接从磁盘加载，跳过 prefill。

缓存的 key 是 token ID 序列的 SHA1 哈希值。

这对 Claude Code 这种每次启动会发 25K token 初始 prompt 的 agent 场景尤其有用，第一次 prefill 完成后，后续会话直接从磁盘恢复。

第三，内置 OpenAI 和 Anthropic 两套 API 兼容层。

/v1/chat/completions 走 OpenAI 协议，/v1/messages 走 Anthropic 协议。tool calling 也做了适配。README 里直接给了 opencode、Pi、Claude Code 三种 agent 客户端的配置示例。

关于为什么要做这件事。

antirez 的回答是，本地推理领域有很多优秀项目，但新模型不断发布，注意力立刻被下一个要实现的模型吸走。

通用引擎为了兼容所有模型，必须做抽象。抽象意味着妥协。他想做的是一条刻意的窄路，一次只赌一个模型，用官方 logits 做验证，做长上下文测试，做足够的 agent 集成来确认它真的能用。

框架一经发布，就有网友不少网友反馈，已经在 Mac 上跑起来了。

你准备好在本地跑 V4 了吗？

一个模型一个推理框架

这件事，也在开发者圈炸出了一个更大的讨论：

未来会不会变成——一个模型，一个推理框架？

Hacker News 上一条高赞评论提了一个有意思的方向，如果开始针对精确的 GPU 加模型组合构建超优化推理引擎呢？

GPU 越来越贵，如果去掉足够多的抽象层，直接针对精确的硬件和模型编码，可能能优化很多。

这条路的代价也很明显。同一条评论指出，一旦模型过时，一切从头来过。

antirez 自己也承认了这个问题。他说 ds4 当前赌的是 DeepSeek V4 Flash，但模型可能会换。

不变的约束是，本地推理要在高端个人机器或 Mac Studio 上跑得靠谱，起步 128GB 内存。

未来会怎样，README 里留了个伏笔。

当前是 Metal-only，未来可能会做 CUDA 支持。但他写得很谨慎，也许会，但仅此而已。这个项目刻意保持小、快、专注。

更值得关注的是他在 README 里抛出的一个观点，本地推理应该是三件事一起做好，开箱即用。

一个有 HTTP API 的推理引擎，一份针对这个引擎和这套假设特别打造的 GGUF，一套和 coding agent 对接的测试和验证。

这是一种全栈本地推理的思路，不是把组件拼起来，是把链路当成一个产品来设计。

如果这条路走通了，它可能改变本地推理的玩法。

模型厂商发布新模型的同时，社区里就会有人跳出来给它做专属引擎，做专属量化，做专属 agent 接入。每一代模型都有一个自己的「antirez」。

ds4 还有一个很坦率的细节。README 里有一段声明，这个软件是在 GPT 5.5 的「强力辅助」下开发的，人类负责想法、测试和调试。

antirez 说如果你不接受 AI 辅助开发的代码，这个软件不适合你。

两周时间，从 fork llama.cpp 做适配，到从头写一个专用引擎，离不开 AI 辅助。这件事本身可能比 ds4 还更值得关注。

One more thing

最后说一下 antirez 这个人。

真名 Salvatore Sanfilippo，1977 年出生于西西里岛。2009 年创建 Redis，主导这个项目十一年，2020 年离开。

离开时他写过一段话，说自己写代码是为了表达自己，代码是一件制品而不只是有用的工具。他宁可被记住为一个糟糕的艺术家，也不愿被记住为一个好程序员。

2024 年底他回到 Redis，担任 evangelist 角色。

除了 Redis 之外，他还写过 Kilo（不到 1000 行 C 代码的文本编辑器）、dump1090（航空 ADS-B 信号解码器）、linenoise（readline 的微型替代品）。

他还在玩 Flipper Zero，写了 RF 协议分析工具，把 Asteroids 移植到上面。2022 年他出了一本科幻小说《WOHPE》，主题是 AI、气候变化、程序员，以及人类和技术的互动。

他个人主页第一行写的是，「我把大部分专业时间花在写代码和写小说上。」

关于 Redis 的诞生，他在个人主页里写了一段：

我老婆说，Redis 的前几年我大部分代码都是坐在马桶上写的，用一台 MacBook Air 11 寸。我真希望能说她错了，但她正好说得完全对。

这种调性贯穿了他做的所有项目。小、精确、自成一体。

ds4.c 也是同一个路子。

看一下他在 ds4 README 里关于 macOS bug 的那段备注，能立刻感觉到这个人的味道。

ds4 有一个 CPU 推理路径用于正确性验证，但当前版本的 macOS 在虚拟内存实现上有一个 bug，跑 CPU 推理会导致内核崩溃。

他写道，记住了吗？软件都很烂。我没法修复 CPU 推理来避免崩溃，因为每次都得重启电脑，一点都不好玩。

然后加了一句，如果你有胆量，来帮我们。

他在个人主页里还留了一句话：

现代编程正变得复杂、无趣，全是要粘合的层。它正失去大部分美感。大多数程序员既不在面对编程的艺术面，也不在面对编程的高级工程面。

从 Redis 到 ds4.c，十五年过去，antirez 还是那个 antirez。

只不过这一次，他开始给 AI 修路了。

参考链接

[ 1 ] http://invece.org/

[ 2 ] https://github.com/antirez/ds4

[ 3 ] https://news.ycombinator.com/item?id=48050751

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

5 月 20 日，我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。

首波嘉宾阵容已公布！昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷都来了，了解详情

请你和我们一起，不再只是讨论 AI 的未来，而是现在就用起来。

一键关注点亮星标

科技前沿进展每日见