ds4 和 llama.cpp、Ollama 有什么区别？

ds4 不是通用 GGUF 加载器，只针对 DeepSeek V4 Flash 做 Metal/CUDA 图执行、KV 落盘与 Agent API；换模型请用 llama.cpp/Ollama，要跑 V4 本地前沿能力且对接 Cursor/opencode 时选 ds4。

只有 64GB 统一内存的 Mac 能跑 ds4 吗？

官方 README 以 96GB 起为生产目标；64GB 机器难以加载完整 q2 Flash 权重与长上下文 KV。建议租用 128GB 云 Mac 做验证，或按定价页选 24GB·512 / M4 Pro 64GB 做其他 CI 负载。

云 Mac 跑 ds4 时模型权重与对话数据会经过 KVMNODE 公网 API 吗？

推理在您的独占实例内执行，经 ds4-server 本地监听；不强制走第三方大模型 API。下单与网络策略见帮助中心与订购入口。

2026 年本地跑 DeepSeek V4？antirez 开源 ds4 与 Mac 云端租赁：96GB 门槛下的顶配推理路径

想在本机跑 DeepSeek V4 级别大模型、又被 antirez 新开源的 ds4（DwarfStar）刷屏的开发者与 AI Agent 用户，2026 年 5 月面对的不是「能不能跑」，而是 96GB 统一内存起步、Flash q4 要 256GB、PRO 要 512GB 的硬件账单。本文说明 ds4 为何在 GitHub 一周破万 Star、Metal 与磁盘 KV 的技术取舍、各档内存对照表，以及 为何 Apple Silicon 是大模型本地推理的消费级最优解；并给出在 KVMNODE 128GB / 512GB 云 Mac 上六步拉起 ds4-server、对接 Cursor / opencode 的落地路径。与站内存储与内存选配、OpenClaw 常驻、六区选区交叉阅读。

ds4 是什么：Redis 作者押注「单模型极致」的 DeepSeek V4 引擎

Salvatore Sanfilippo（antirez）——Redis 的作者——在 2026 年开源了 ds4（DwarfStar 4）：一款只为 DeepSeek V4 Flash / PRO 服务的本地推理引擎，纯 C 实现，不包装 llama.cpp，也不做通用 GGUF 市场。README 写得很直白：目标是「在个人顶配机器或 Mac Studio 上，让本地推理可信到能替代日常 Claude / GPT 调用」，并配套官方向量校验、长上下文测试与编码 Agent 集成。

项目上线数日内 GitHub Star 即突破 11,000+，Hacker News 与社区评测集中讨论同一件事：284B 级 MoE 第一次在 MacBook 上离线跑通工具调用与十万级上下文。这与 2025 年「7B 玩具模型」的本地 AI 叙事完全不同——ds4 把讨论从「能跑」推进到「敢拿来写生产代码」。对 KVMNODE 用户而言，热点本身说明大内存 Mac 的需求曲线正在陡增；真正卡住大多数人的，是下一节的内存墙。

窄而深：只服务 DeepSeek V4，换取 Metal 图、KV 格式与 Tool Calling 的一体化优化。

自包含：加载、prompt 渲染、磁盘 KV、ds4-server、内置 coding agent 同仓维护。

社区验证：公开基准与第三方 18 项任务测试显示，部分场景已可少开云端 Tab 对照。

非多租户：当前串行处理请求、不做 batch serving，定位单人/小团队 Agent 工作流。

与 KVMNODE 的交集：云 Mac 提供 ds4 要求的统一内存档位，无需自购 Mac Studio Ultra。

合规注意：权重需按 DeepSeek 与项目许可自行下载，本文只讨论引擎与硬件路径。

技术亮点：Metal 优先、百万上下文与磁盘 KV 为何值得单独成文

ds4 的技术叙事可以概括为「把 Apple Silicon 吃满，再把长会话状态交给 SSD」。官方与社区披露的关键能力包括：

在 MacBook Pro M5 Max 上，ds4 报告的 prefill 约 463 token/s、生成约 34 token/s（具体随量化与上下文长度波动），在同档消费级硬件里属于第一梯队。引擎支持 最高约 100 万 token 上下文窗口，并配合 DeepSeek V4 压缩 KV 设计，使「整库代码 + 长对话」在本地成为可规划场景，而非演示级数字。

磁盘 KV 持久化是另一个差异化点：会话 KV 可落盘，利用 Mac 高速 SSD 在重启或切换任务后避免整段 prefill 重算——这对每天开关机的笔记本用户与需要「隔天接着聊」的 Agent 同样重要。2-bit 非对称量化仅对路由专家激进压缩，其余层保持精度，使 Flash 在 128GB 机器上具备可运行空间。ds4-server 同时暴露 OpenAI 与 Anthropic 兼容端点，Cursor、opencode、Claude Code 等可把本地实例当作「私有模型供应商」。

shell

git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README 同时警告：macOS 上 CPU 推理路径可能触发内核虚拟内存缺陷，生产应使用 Metal（或 Linux 上的 CUDA）。这意味着「先 make 再随便跑」在云 Mac 运维上也要写进检查清单——与诊断梯子里的健康探针思路一致。

硬件门槛对照表：Flash q2 从 96GB 到 PRO 512GB 要花多少钱

ds4 再优雅，也绕不开统一内存容量。下面表格综合官方 README、社区实测与公开市场报价口径（人民币为约数，随配置与汇率波动），用于写预算或租赁决策——不是建议盲目买顶配，而是把「能跑」与「跑得舒服」分开定价。

模型 / 量化	最低统一内存	典型硬件	新机参考价（约）	云租替代思路
V4 Flash q2	96 GB	MacBook Pro M3/M4/M5 Max	¥30,000+	128GB 云 Mac 按周/月验证
V4 Flash q4	256 GB	Mac Studio Ultra	¥60,000+	短期 spike 租 Ultra 档或分阶段量化试验
V4 PRO q2	512 GB	Mac Studio M3 Ultra 顶配	¥110,000+	项目制租 512GB 实例，跑完即停
仅 CI / 16–24GB	16–24 GB	M4 / M4 Pro 云节点	不适用 ds4 生产	继续用于 Xcode / OpenClaw，ds4 另池

软件已经证明「本地跑 V4 可行」；拦路的是统一内存的单价，而不是 C 语言写得好不好。

对团队而言，更务实的做法是：把 ds4 验证与日常 iOS CI 分到不同内存池——16GB·256 / 24GB·512 跑构建与 OpenClaw，128GB+ 专池跑 ds4-server，避免在一台机器上同时顶满 DerivedData 与百万 token KV。选型细节见存储与内存选配文。

为什么 ds4 把 Metal + Mac 放在第一位：统一内存与 SSD 的「系统级耦合」

ds4 将 Metal 列为 macOS 首要后端并非营销话术。Apple Silicon 的 统一内存架构（UMA） 让 CPU、GPU 与 Neural Engine 共享同一块物理内存，避免了 PC 上「显存 24GB、内存 64GB」的割裂——对大模型推理而言，可寻址的统一地址空间直接决定能加载多大的量化权重与 KV。M3/M4/M5 系列的高内存带宽，则把 prefill 吞吐推到消费级硬件的上限。

macOS 的 NVMe 与 ds4 的磁盘 KV形成第二重耦合：长会话不必全部压在 RAM，冷启动后仍可从 SSD 恢复上下文块。Linux + CUDA 路径（含 DGX Spark 优化）在 ds4 仓库中同样存在，但对「已经买了 Mac、想离线写代码」的开发者，大内存 Mac = 当前最适合 ds4 的消费级平台这一判断，与 antirez 在 HN 上的表述一致。

反过来看，在非 Apple 硬件的 macOS 虚拟机或黑苹果上跑 ds4，既违反许可也损失 Metal 路径稳定性——云端应选真裸金属 Apple Silicon 节点，而不是「看起来像 Mac」的虚拟桌面。这也是 KVMNODE 坚持 Mac Mini 独占交付的原因之一。

六步在 KVMNODE 云 Mac 上拉起 ds4-server 并接入 Cursor / opencode

下面六步假设您已订购 128GB 或以上统一内存的云 Mac（区域按 Git 与模型权重下载源选择，见六区选区）。权重下载涉及大体积文件，建议与对象存储或 Hugging Face 镜像同区，减少跨洋尾延迟。

选档下单：在订购入口选择满足 96GB+ 的套餐；仅做 ds4 试验可先按天 spike，长期 Agent 常驻改按月基线（见按天 spike 文）。

SSH 首登：确认 Xcode CLT、Homebrew 与 git 可用；将模型与 KV 目录放在本地 SSD 路径，勿放 iCloud 同步目录。

编译 ds4：git clone https://github.com/antirez/ds4 && cd ds4 && make，确认生成 ./ds4 与 ./ds4-server；勿以 CPU-only 路径做生产压测。

拉取权重：按仓库脚本下载 DeepSeek V4 Flash 官方推荐 GGUF / ds4 专用权重；校验 SHA 后放到固定 MODEL_PATH。

启动服务：./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080（内网）或仅 127.0.0.1 + SSH -L；用 launchd 或 pm2 做常驻，参考 OpenClaw 常驻的守护进程写法。

客户端对接：在 Cursor / opencode 将 Base URL 指向 http://127.0.0.1:8080/v1（或隧道地址），选兼容模型名；团队共享时通过 Tailscale 暴露只读推理端点，勿把 token 写在公网。

隐私口径：推理在独占实例内完成，对话与代码上下文不强制经第三方 API；仍需您自行遵守模型许可与出站防火墙策略。网络与备份说明见帮助中心。

三条可引用数据、方案对比与 Mac 云端租赁结论

写进技术评审或采购说明时，可直接引用下面三条公开口径（随上游 README 更新而调整）：① GitHub 11k+ Star 量级反映 ds4 在 2026 年 5 月的社区热度；② MacBook Pro M5 Max 上社区披露的 ~463 t/s prefill、~34 t/s 生成（量化与上下文相关）；③ 官方将生产起点定为 96GB 统一内存，128GB 为更稳妥的 Flash 长上下文档位。

把替代方案摊开对比：继续只用云端 Claude / GPT API，按 token 计费且代码与长上下文出网，合规与 IP 敏感项目成本高；自购 Mac Studio Ultra，CapEx 动辄数十万且升级周期锁死；在普通 Linux 云 GPU 上硬跑，ds4 的 Metal 优化用不上，且 MoE 大模型对显存拓扑要求不同。在 KVMNODE 按小时或按月租用 128GB / 512GB 云 Mac，则把 ds4 的「顶配本地推理」变成可按项目开关的 OpEx：环境预装、Metal 真机、团队共享与数据留在独占实例，更适合先验证再决定是否自购硬件。

对需要 iOS CI、OpenClaw Gateway 与 ds4 并存的团队，建议物理或逻辑分池，不要把 16GB 构建机与 128GB 推理机混为同一 SKU。档位与价格见定价页，下单见订购入口。

返回博客列表立即租赁