ds4 和 llama.cpp、Ollama 有什麼差別？

ds4 不是通用 GGUF 載入器，只針對 DeepSeek V4 Flash 做 Metal/CUDA 圖執行、KV 落碟與 Agent API；換模型請用 llama.cpp/Ollama，要跑 V4 本機前沿能力且對接 Cursor/opencode 時選 ds4。

只有 64GB 統一記憶體的 Mac 能跑 ds4 嗎？

官方 README 以 96GB 起為生產目標；64GB 機器難以載入完整 q2 Flash 權重與長上下文 KV。建議租用 128GB 雲端 Mac 做驗證，或按定價頁選 24GB·512 / M4 Pro 64GB 做其他 CI 負載。

雲端 Mac 跑 ds4 時模型權重與對話資料會經過 KVMNODE 公網 API 嗎？

推理在您的獨佔實例內執行，經 ds4-server 本機監聽；不強制走第三方大模型 API。下單與網路策略見幫助中心與訂購入口。

2026 年本機跑 DeepSeek V4？antirez 開源 ds4 與 Mac 雲端租用：96GB 門檻下的頂配推理路徑

想在本機跑 DeepSeek V4 級別大模型、又被 antirez 新開源的 ds4（DwarfStar）洗版的開發者與 AI Agent 使用者，2026 年 5 月面對的不是「能不能跑」，而是 96GB 統一記憶體起步、Flash q4 要 256GB、PRO 要 512GB 的硬體帳單。本文說明 ds4 為何在 GitHub 一週破萬 Star、Metal 與磁碟 KV 的技術取捨、各檔記憶體對照表，以及 為何 Apple Silicon 是大模型本機推理的消費級最優解；並給出在 KVMNODE 128GB / 512GB 雲端 Mac 上六步拉起 ds4-server、對接 Cursor / opencode 的落地路徑。與站內儲存與記憶體選配、OpenClaw 常駐、六區選區交叉閱讀。

ds4 是什麼：Redis 作者押注「單模型極致」的 DeepSeek V4 引擎

Salvatore Sanfilippo（antirez）——Redis 的作者——在 2026 年開源了 ds4（DwarfStar 4）：一款只為 DeepSeek V4 Flash / PRO 服務的本機推理引擎，純 C 實作，不包裝 llama.cpp，也不做通用 GGUF 市場。README 寫得很直白：目標是「在個人頂配機器或 Mac Studio 上，讓本機推理可信到能替代日常 Claude / GPT 呼叫」，並配套官方向量校驗、長上下文測試與編碼 Agent 整合。

專案上線數日內 GitHub Star 即突破 11,000+，Hacker News 與社群評測集中討論同一件事：284B 級 MoE 第一次在 MacBook 上離線跑通工具呼叫與十萬級上下文。這與 2025 年「7B 玩具模型」的本機 AI 敘事完全不同——ds4 把討論從「能跑」推進到「敢拿來寫生產程式碼」。對 KVMNODE 使用者而言，熱點本身說明大記憶體 Mac 的需求曲線正在陡增；真正卡住大多數人的，是下一節的記憶體牆。

窄而深：只服務 DeepSeek V4，換取 Metal 圖、KV 格式與 Tool Calling 的一體化最佳化。

自包含：載入、prompt 渲染、磁碟 KV、ds4-server、內建 coding agent 同倉維護。

社群驗證：公開基準與第三方 18 項任務測試顯示，部分場景已可少開雲端 Tab 對照。

非多租戶：目前串列處理請求、不做 batch serving，定位單人/小團隊 Agent 工作流。

與 KVMNODE 的交集：雲端 Mac 提供 ds4 要求的統一記憶體檔位，無需自購 Mac Studio Ultra。

合規注意：權重需按 DeepSeek 與專案許可自行下載，本文只討論引擎與硬體路徑。

技術亮點：Metal 優先、百萬上下文與磁碟 KV 為何值得單獨成文

ds4 的技術敘事可以概括為「把 Apple Silicon 吃滿，再把長會話狀態交給 SSD」。官方與社群披露的關鍵能力包括：

在 MacBook Pro M5 Max 上，ds4 回報的 prefill 約 463 token/s、生成約 34 token/s（具體隨量化與上下文長度波動），在同檔消費級硬體裡屬於第一梯隊。引擎支援 最高約 100 萬 token 上下文視窗，並配合 DeepSeek V4 壓縮 KV 設計，使「整庫程式碼 + 長對話」在本機成為可規劃場景，而非展示級數字。

磁碟 KV 持久化是另一個差異化點：會話 KV 可落碟，利用 Mac 高速 SSD 在重開機或切換任務後避免整段 prefill 重算——對每天關機的筆電使用者與需要「隔天接著聊」的 Agent 同樣重要。2-bit 非對稱量化僅對路由專家激進壓縮，其餘層保持精度，使 Flash 在 128GB 機器上具備可執行空間。ds4-server 同時暴露 OpenAI 與 Anthropic 相容端點，Cursor、opencode、Claude Code 等可把本機實例當作「私有模型供應商」。

shell

git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README 同時警告：macOS 上 CPU 推理路徑可能觸發核心虛擬記憶體缺陷，生產應使用 Metal（或 Linux 上的 CUDA）。這意味著「先 make 再隨便跑」在雲端 Mac 維運上也要寫進檢查清單——與診斷梯子裡的健康探針思路一致。

硬體門檻對照表：Flash q2 從 96GB 到 PRO 512GB 要花多少錢

ds4 再優雅，也繞不開統一記憶體容量。下面表格綜合官方 README、社群實測與公開市場報價口徑（新台幣為約數，隨配置與匯率波動），用於寫預算或租用決策——不是建議盲目買頂配，而是把「能跑」與「跑得舒服」分開定價。

模型 / 量化	最低統一記憶體	典型硬體	新機參考價（約）	雲端租用替代思路
V4 Flash q2	96 GB	MacBook Pro M3/M4/M5 Max	NT$90 萬+	128GB 雲端 Mac 按週/月驗證
V4 Flash q4	256 GB	Mac Studio Ultra	NT$180 萬+	短期 spike 租 Ultra 檔或分階段量化試驗
V4 PRO q2	512 GB	Mac Studio M3 Ultra 頂配	NT$330 萬+	專案制租 512GB 實例，跑完即停
僅 CI / 16–24GB	16–24 GB	M4 / M4 Pro 雲端節點	不適用 ds4 生產	繼續用於 Xcode / OpenClaw，ds4 另池

軟體已經證明「本機跑 V4 可行」；擋路的是統一記憶體的單價，而不是 C 語言寫得好不好。

對團隊而言，更務實的做法是：把 ds4 驗證與日常 iOS CI 分到不同記憶體池——16GB·256 / 24GB·512 跑建置與 OpenClaw，128GB+ 專池跑 ds4-server，避免在一台機器上同時頂滿 DerivedData 與百萬 token KV。選型細節見儲存與記憶體選配文。

為什麼 ds4 把 Metal + Mac 放在第一位：統一記憶體與 SSD 的「系統級耦合」

ds4 將 Metal 列為 macOS 首要後端並非行銷話術。Apple Silicon 的 統一記憶體架構（UMA） 讓 CPU、GPU 與 Neural Engine 共享同一塊實體記憶體，避免了 PC 上「顯存 24GB、記憶體 64GB」的割裂——對大模型推理而言，可定址的統一位址空間直接決定能載入多大的量化權重與 KV。M3/M4/M5 系列的高記憶體頻寬，則把 prefill 吞吐推到消費級硬體的上限。

macOS 的 NVMe 與 ds4 的磁碟 KV形成第二重耦合：長會話不必全部壓在 RAM，冷啟動後仍可從 SSD 恢復上下文區塊。Linux + CUDA 路徑（含 DGX Spark 最佳化）在 ds4 儲存庫中同樣存在，但對「已經買了 Mac、想離線寫程式」的開發者，大記憶體 Mac = 當前最適合 ds4 的消費級平台這一判斷，與 antirez 在 HN 上的表述一致。

反過來看，在非 Apple 硬體的 macOS 虛擬機或黑蘋果上跑 ds4，既違反授權也損失 Metal 路徑穩定性——雲端應選真裸機 Apple Silicon 節點，而不是「看起來像 Mac」的虛擬桌面。這也是 KVMNODE 堅持 Mac Mini 獨佔交付的原因之一。

六步在 KVMNODE 雲端 Mac 上拉起 ds4-server 並接入 Cursor / opencode

下面六步假設您已訂購 128GB 或以上統一記憶體的雲端 Mac（區域按 Git 與模型權重下載源選擇，見六區選區）。權重下載涉及大體積檔案，建議與物件儲存或 Hugging Face 鏡像同區，減少跨洋尾延遲。

選檔下單：在訂購入口選擇滿足 96GB+ 的套餐；僅做 ds4 試驗可先按天 spike，長期 Agent 常駐改按月基線（見按天 spike 文）。

SSH 首登：確認 Xcode CLT、Homebrew 與 git 可用；將模型與 KV 目錄放在本機 SSD 路徑，勿放 iCloud 同步目錄。

編譯 ds4：git clone https://github.com/antirez/ds4 && cd ds4 && make，確認產生 ./ds4 與 ./ds4-server；勿以 CPU-only 路徑做生產壓測。

拉取權重：按儲存庫腳本下載 DeepSeek V4 Flash 官方推薦 GGUF / ds4 專用權重；校驗 SHA 後放到固定 MODEL_PATH。

啟動服務：./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080（內網）或僅 127.0.0.1 + SSH -L；用 launchd 或 pm2 做常駐，參考 OpenClaw 常駐的守護行程寫法。

客戶端對接：在 Cursor / opencode 將 Base URL 指向 http://127.0.0.1:8080/v1（或隧道位址），選相容模型名；團隊共享時透過 Tailscale 暴露唯讀推理端點，勿把 token 寫在公網。

隱私口徑：推理在獨佔實例內完成，對話與程式碼上下文不強制經第三方 API；仍需您自行遵守模型許可與出站防火牆策略。網路與備份說明見幫助中心。

三條可引用數據、方案比較與 Mac 雲端租用結論

寫進技術評審或採購說明時，可直接引用下面三條公開口徑（隨上游 README 更新而調整）：① GitHub 11k+ Star 量級反映 ds4 在 2026 年 5 月的社群熱度；② MacBook Pro M5 Max 上社群披露的 ~463 t/s prefill、~34 t/s 生成（量化與上下文相關）；③ 官方將生產起點定為 96GB 統一記憶體，128GB 為更穩妥的 Flash 長上下文件位。

把替代方案攤開比較：繼續只用雲端 Claude / GPT API，按 token 計費且程式碼與長上下文出網，合規與 IP 敏感專案成本高；自購 Mac Studio Ultra，CapEx 動輒數十萬且升級週期鎖死；在普通 Linux 雲端 GPU 上硬跑，ds4 的 Metal 最佳化用不上，且 MoE 大模型對顯存拓撲要求不同。在 KVMNODE 按小時或按月租用 128GB / 512GB 雲端 Mac，則把 ds4 的「頂配本機推理」變成可按專案開關的 OpEx：環境預裝、Metal 真機、團隊共享與資料留在獨佔實例，更適合先驗證再決定是否自購硬體。

對需要 iOS CI、OpenClaw Gateway 與 ds4 並存的團隊，建議物理或邏輯分池，不要把 16GB 建置機與 128GB 推理機混為同一 SKU。檔位與價格見租用價格，下單見訂購入口，維運範本見幫助中心。

返回部落格列表立即租用