想在本机跑 DeepSeek V4 级别大模型、又被 antirez 新开源的 ds4(DwarfStar)刷屏的开发者与 AI Agent 用户,2026 年 5 月面对的不是「能不能跑」,而是 96GB 统一内存起步、Flash q4 要 256GB、PRO 要 512GB 的硬件账单。本文说明 ds4 为何在 GitHub 一周破万 Star、Metal 与磁盘 KV 的技术取舍、各档内存对照表,以及 为何 Apple Silicon 是大模型本地推理的消费级最优解;并给出在 KVMNODE 128GB / 512GB 云 Mac 上六步拉起 ds4-server、对接 Cursor / opencode 的落地路径。与站内 存储与内存选配OpenClaw 常驻六区选区 交叉阅读。
01

ds4 是什么:Redis 作者押注「单模型极致」的 DeepSeek V4 引擎

Salvatore Sanfilippo(antirez)——Redis 的作者——在 2026 年开源了 ds4(DwarfStar 4):一款只为 DeepSeek V4 Flash / PRO 服务的本地推理引擎,纯 C 实现,不包装 llama.cpp,也不做通用 GGUF 市场。README 写得很直白:目标是「在个人顶配机器或 Mac Studio 上,让本地推理可信到能替代日常 Claude / GPT 调用」,并配套官方向量校验、长上下文测试与编码 Agent 集成。

项目上线数日内 GitHub Star 即突破 11,000+,Hacker News 与社区评测集中讨论同一件事:284B 级 MoE 第一次在 MacBook 上离线跑通工具调用与十万级上下文。这与 2025 年「7B 玩具模型」的本地 AI 叙事完全不同——ds4 把讨论从「能跑」推进到「敢拿来写生产代码」。对 KVMNODE 用户而言,热点本身说明大内存 Mac 的需求曲线正在陡增;真正卡住大多数人的,是下一节的内存墙。

01

窄而深:只服务 DeepSeek V4,换取 Metal 图、KV 格式与 Tool Calling 的一体化优化。

02

自包含:加载、prompt 渲染、磁盘 KV、ds4-server、内置 coding agent 同仓维护。

03

社区验证:公开基准与第三方 18 项任务测试显示,部分场景已可少开云端 Tab 对照。

04

非多租户:当前串行处理请求、不做 batch serving,定位单人/小团队 Agent 工作流。

05

与 KVMNODE 的交集:云 Mac 提供 ds4 要求的统一内存档位,无需自购 Mac Studio Ultra。

06

合规注意:权重需按 DeepSeek 与项目许可自行下载,本文只讨论引擎与硬件路径。

02

技术亮点:Metal 优先、百万上下文与磁盘 KV 为何值得单独成文

ds4 的技术叙事可以概括为「把 Apple Silicon 吃满,再把长会话状态交给 SSD」。官方与社区披露的关键能力包括:

在 MacBook Pro M5 Max 上,ds4 报告的 prefill 约 463 token/s、生成约 34 token/s(具体随量化与上下文长度波动),在同档消费级硬件里属于第一梯队。引擎支持 最高约 100 万 token 上下文窗口,并配合 DeepSeek V4 压缩 KV 设计,使「整库代码 + 长对话」在本地成为可规划场景,而非演示级数字。

磁盘 KV 持久化是另一个差异化点:会话 KV 可落盘,利用 Mac 高速 SSD 在重启或切换任务后避免整段 prefill 重算——这对每天开关机的笔记本用户与需要「隔天接着聊」的 Agent 同样重要。2-bit 非对称量化仅对路由专家激进压缩,其余层保持精度,使 Flash 在 128GB 机器上具备可运行空间。ds4-server 同时暴露 OpenAI 与 Anthropic 兼容端点,Cursor、opencode、Claude Code 等可把本地实例当作「私有模型供应商」。

shell
git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README 同时警告:macOS 上 CPU 推理路径可能触发内核虚拟内存缺陷,生产应使用 Metal(或 Linux 上的 CUDA)。这意味着「先 make 再随便跑」在云 Mac 运维上也要写进检查清单——与 诊断梯子 里的健康探针思路一致。

03

硬件门槛对照表:Flash q2 从 96GB 到 PRO 512GB 要花多少钱

ds4 再优雅,也绕不开统一内存容量。下面表格综合官方 README、社区实测与公开市场报价口径(人民币为约数,随配置与汇率波动),用于写预算或租赁决策——不是建议盲目买顶配,而是把「能跑」与「跑得舒服」分开定价

模型 / 量化最低统一内存典型硬件新机参考价(约)云租替代思路
V4 Flash q296 GBMacBook Pro M3/M4/M5 Max¥30,000+128GB 云 Mac 按周/月验证
V4 Flash q4256 GBMac Studio Ultra¥60,000+短期 spike 租 Ultra 档或分阶段量化试验
V4 PRO q2512 GBMac Studio M3 Ultra 顶配¥110,000+项目制租 512GB 实例,跑完即停
仅 CI / 16–24GB16–24 GBM4 / M4 Pro 云节点不适用 ds4 生产继续用于 Xcode / OpenClaw,ds4 另池

软件已经证明「本地跑 V4 可行」;拦路的是统一内存的单价,而不是 C 语言写得好不好。

对团队而言,更务实的做法是:把 ds4 验证与日常 iOS CI 分到不同内存池——16GB·256 / 24GB·512 跑构建与 OpenClaw,128GB+ 专池跑 ds4-server,避免在一台机器上同时顶满 DerivedData 与百万 token KV。选型细节见 存储与内存选配文

04

为什么 ds4 把 Metal + Mac 放在第一位:统一内存与 SSD 的「系统级耦合」

ds4 将 Metal 列为 macOS 首要后端并非营销话术。Apple Silicon 的 统一内存架构(UMA) 让 CPU、GPU 与 Neural Engine 共享同一块物理内存,避免了 PC 上「显存 24GB、内存 64GB」的割裂——对大模型推理而言,可寻址的统一地址空间直接决定能加载多大的量化权重与 KV。M3/M4/M5 系列的高内存带宽,则把 prefill 吞吐推到消费级硬件的上限。

macOS 的 NVMe 与 ds4 的磁盘 KV形成第二重耦合:长会话不必全部压在 RAM,冷启动后仍可从 SSD 恢复上下文块。Linux + CUDA 路径(含 DGX Spark 优化)在 ds4 仓库中同样存在,但对「已经买了 Mac、想离线写代码」的开发者,大内存 Mac = 当前最适合 ds4 的消费级平台这一判断,与 antirez 在 HN 上的表述一致。

反过来看,在非 Apple 硬件的 macOS 虚拟机或黑苹果上跑 ds4,既违反许可也损失 Metal 路径稳定性——云端应选真裸金属 Apple Silicon 节点,而不是「看起来像 Mac」的虚拟桌面。这也是 KVMNODE 坚持 Mac Mini 独占交付的原因之一。

05

六步在 KVMNODE 云 Mac 上拉起 ds4-server 并接入 Cursor / opencode

下面六步假设您已订购 128GB 或以上统一内存的云 Mac(区域按 Git 与模型权重下载源选择,见 六区选区)。权重下载涉及大体积文件,建议与对象存储或 Hugging Face 镜像同区,减少跨洋尾延迟。

01

选档下单:订购入口 选择满足 96GB+ 的套餐;仅做 ds4 试验可先按天 spike,长期 Agent 常驻改按月基线(见 按天 spike 文)。

02

SSH 首登:确认 Xcode CLT、Homebrew 与 git 可用;将模型与 KV 目录放在本地 SSD 路径,勿放 iCloud 同步目录。

03

编译 ds4:git clone https://github.com/antirez/ds4 && cd ds4 && make,确认生成 ./ds4./ds4-server;勿以 CPU-only 路径做生产压测。

04

拉取权重:按仓库脚本下载 DeepSeek V4 Flash 官方推荐 GGUF / ds4 专用权重;校验 SHA 后放到固定 MODEL_PATH

05

启动服务:./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080(内网)或仅 127.0.0.1 + SSH -L;用 launchd 或 pm2 做常驻,参考 OpenClaw 常驻 的守护进程写法。

06

客户端对接:在 Cursor / opencode 将 Base URL 指向 http://127.0.0.1:8080/v1(或隧道地址),选兼容模型名;团队共享时通过 Tailscale 暴露只读推理端点,勿把 token 写在公网。

隐私口径:推理在独占实例内完成,对话与代码上下文不强制经第三方 API;仍需您自行遵守模型许可与出站防火墙策略。网络与备份说明见 帮助中心

06

三条可引用数据、方案对比与 Mac 云端租赁结论

写进技术评审或采购说明时,可直接引用下面三条公开口径(随上游 README 更新而调整):① GitHub 11k+ Star 量级反映 ds4 在 2026 年 5 月的社区热度;② MacBook Pro M5 Max 上社区披露的 ~463 t/s prefill、~34 t/s 生成(量化与上下文相关);③ 官方将生产起点定为 96GB 统一内存,128GB 为更稳妥的 Flash 长上下文档位。

把替代方案摊开对比:继续只用云端 Claude / GPT API,按 token 计费且代码与长上下文出网,合规与 IP 敏感项目成本高;自购 Mac Studio Ultra,CapEx 动辄数十万且升级周期锁死;在普通 Linux 云 GPU 上硬跑,ds4 的 Metal 优化用不上,且 MoE 大模型对显存拓扑要求不同。在 KVMNODE 按小时或按月租用 128GB / 512GB 云 Mac,则把 ds4 的「顶配本地推理」变成可按项目开关的 OpEx:环境预装、Metal 真机、团队共享与数据留在独占实例,更适合先验证再决定是否自购硬件。

对需要 iOS CI、OpenClaw Gateway 与 ds4 并存的团队,建议物理或逻辑分池,不要把 16GB 构建机与 128GB 推理机混为同一 SKU。档位与价格见 定价页,下单见 订购入口