ds4-server、對接 Cursor / opencode 的落地路徑。與站內 儲存與記憶體選配、OpenClaw 常駐、六區選區 交叉閱讀。
ds4 是什麼:Redis 作者押注「單模型極致」的 DeepSeek V4 引擎
Salvatore Sanfilippo(antirez)——Redis 的作者——在 2026 年開源了 ds4(DwarfStar 4):一款只為 DeepSeek V4 Flash / PRO 服務的本機推理引擎,純 C 實作,不包裝 llama.cpp,也不做通用 GGUF 市場。README 寫得很直白:目標是「在個人頂配機器或 Mac Studio 上,讓本機推理可信到能替代日常 Claude / GPT 呼叫」,並配套官方向量校驗、長上下文測試與編碼 Agent 整合。
專案上線數日內 GitHub Star 即突破 11,000+,Hacker News 與社群評測集中討論同一件事:284B 級 MoE 第一次在 MacBook 上離線跑通工具呼叫與十萬級上下文。這與 2025 年「7B 玩具模型」的本機 AI 敘事完全不同——ds4 把討論從「能跑」推進到「敢拿來寫生產程式碼」。對 KVMNODE 使用者而言,熱點本身說明大記憶體 Mac 的需求曲線正在陡增;真正卡住大多數人的,是下一節的記憶體牆。
窄而深:只服務 DeepSeek V4,換取 Metal 圖、KV 格式與 Tool Calling 的一體化最佳化。
自包含:載入、prompt 渲染、磁碟 KV、ds4-server、內建 coding agent 同倉維護。
社群驗證:公開基準與第三方 18 項任務測試顯示,部分場景已可少開雲端 Tab 對照。
非多租戶:目前串列處理請求、不做 batch serving,定位單人/小團隊 Agent 工作流。
與 KVMNODE 的交集:雲端 Mac 提供 ds4 要求的統一記憶體檔位,無需自購 Mac Studio Ultra。
合規注意:權重需按 DeepSeek 與專案許可自行下載,本文只討論引擎與硬體路徑。
技術亮點:Metal 優先、百萬上下文與磁碟 KV 為何值得單獨成文
ds4 的技術敘事可以概括為「把 Apple Silicon 吃滿,再把長會話狀態交給 SSD」。官方與社群披露的關鍵能力包括:
在 MacBook Pro M5 Max 上,ds4 回報的 prefill 約 463 token/s、生成約 34 token/s(具體隨量化與上下文長度波動),在同檔消費級硬體裡屬於第一梯隊。引擎支援 最高約 100 萬 token 上下文視窗,並配合 DeepSeek V4 壓縮 KV 設計,使「整庫程式碼 + 長對話」在本機成為可規劃場景,而非展示級數字。
磁碟 KV 持久化是另一個差異化點:會話 KV 可落碟,利用 Mac 高速 SSD 在重開機或切換任務後避免整段 prefill 重算——對每天關機的筆電使用者與需要「隔天接著聊」的 Agent 同樣重要。2-bit 非對稱量化僅對路由專家激進壓縮,其餘層保持精度,使 Flash 在 128GB 機器上具備可執行空間。ds4-server 同時暴露 OpenAI 與 Anthropic 相容端點,Cursor、opencode、Claude Code 等可把本機實例當作「私有模型供應商」。
git clone https://github.com/antirez/ds4 cd ds4 && make ./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080
README 同時警告:macOS 上 CPU 推理路徑可能觸發核心虛擬記憶體缺陷,生產應使用 Metal(或 Linux 上的 CUDA)。這意味著「先 make 再隨便跑」在雲端 Mac 維運上也要寫進檢查清單——與 診斷梯子 裡的健康探針思路一致。
硬體門檻對照表:Flash q2 從 96GB 到 PRO 512GB 要花多少錢
ds4 再優雅,也繞不開統一記憶體容量。下面表格綜合官方 README、社群實測與公開市場報價口徑(新台幣為約數,隨配置與匯率波動),用於寫預算或租用決策——不是建議盲目買頂配,而是把「能跑」與「跑得舒服」分開定價。
| 模型 / 量化 | 最低統一記憶體 | 典型硬體 | 新機參考價(約) | 雲端租用替代思路 |
|---|---|---|---|---|
| V4 Flash q2 | 96 GB | MacBook Pro M3/M4/M5 Max | NT$90 萬+ | 128GB 雲端 Mac 按週/月驗證 |
| V4 Flash q4 | 256 GB | Mac Studio Ultra | NT$180 萬+ | 短期 spike 租 Ultra 檔或分階段量化試驗 |
| V4 PRO q2 | 512 GB | Mac Studio M3 Ultra 頂配 | NT$330 萬+ | 專案制租 512GB 實例,跑完即停 |
| 僅 CI / 16–24GB | 16–24 GB | M4 / M4 Pro 雲端節點 | 不適用 ds4 生產 | 繼續用於 Xcode / OpenClaw,ds4 另池 |
軟體已經證明「本機跑 V4 可行」;擋路的是統一記憶體的單價,而不是 C 語言寫得好不好。
對團隊而言,更務實的做法是:把 ds4 驗證與日常 iOS CI 分到不同記憶體池——16GB·256 / 24GB·512 跑建置與 OpenClaw,128GB+ 專池跑 ds4-server,避免在一台機器上同時頂滿 DerivedData 與百萬 token KV。選型細節見 儲存與記憶體選配文。
為什麼 ds4 把 Metal + Mac 放在第一位:統一記憶體與 SSD 的「系統級耦合」
ds4 將 Metal 列為 macOS 首要後端並非行銷話術。Apple Silicon 的 統一記憶體架構(UMA) 讓 CPU、GPU 與 Neural Engine 共享同一塊實體記憶體,避免了 PC 上「顯存 24GB、記憶體 64GB」的割裂——對大模型推理而言,可定址的統一位址空間直接決定能載入多大的量化權重與 KV。M3/M4/M5 系列的高記憶體頻寬,則把 prefill 吞吐推到消費級硬體的上限。
macOS 的 NVMe 與 ds4 的磁碟 KV形成第二重耦合:長會話不必全部壓在 RAM,冷啟動後仍可從 SSD 恢復上下文區塊。Linux + CUDA 路徑(含 DGX Spark 最佳化)在 ds4 儲存庫中同樣存在,但對「已經買了 Mac、想離線寫程式」的開發者,大記憶體 Mac = 當前最適合 ds4 的消費級平台這一判斷,與 antirez 在 HN 上的表述一致。
反過來看,在非 Apple 硬體的 macOS 虛擬機或黑蘋果上跑 ds4,既違反授權也損失 Metal 路徑穩定性——雲端應選真裸機 Apple Silicon 節點,而不是「看起來像 Mac」的虛擬桌面。這也是 KVMNODE 堅持 Mac Mini 獨佔交付的原因之一。
六步在 KVMNODE 雲端 Mac 上拉起 ds4-server 並接入 Cursor / opencode
下面六步假設您已訂購 128GB 或以上統一記憶體的雲端 Mac(區域按 Git 與模型權重下載源選擇,見 六區選區)。權重下載涉及大體積檔案,建議與物件儲存或 Hugging Face 鏡像同區,減少跨洋尾延遲。
選檔下單:在 訂購入口 選擇滿足 96GB+ 的套餐;僅做 ds4 試驗可先按天 spike,長期 Agent 常駐改按月基線(見 按天 spike 文)。
SSH 首登:確認 Xcode CLT、Homebrew 與 git 可用;將模型與 KV 目錄放在本機 SSD 路徑,勿放 iCloud 同步目錄。
編譯 ds4:git clone https://github.com/antirez/ds4 && cd ds4 && make,確認產生 ./ds4 與 ./ds4-server;勿以 CPU-only 路徑做生產壓測。
拉取權重:按儲存庫腳本下載 DeepSeek V4 Flash 官方推薦 GGUF / ds4 專用權重;校驗 SHA 後放到固定 MODEL_PATH。
啟動服務:./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080(內網)或僅 127.0.0.1 + SSH -L;用 launchd 或 pm2 做常駐,參考 OpenClaw 常駐 的守護行程寫法。
客戶端對接:在 Cursor / opencode 將 Base URL 指向 http://127.0.0.1:8080/v1(或隧道位址),選相容模型名;團隊共享時透過 Tailscale 暴露唯讀推理端點,勿把 token 寫在公網。
隱私口徑:推理在獨佔實例內完成,對話與程式碼上下文不強制經第三方 API;仍需您自行遵守模型許可與出站防火牆策略。網路與備份說明見 幫助中心。
三條可引用數據、方案比較與 Mac 雲端租用結論
寫進技術評審或採購說明時,可直接引用下面三條公開口徑(隨上游 README 更新而調整):① GitHub 11k+ Star 量級反映 ds4 在 2026 年 5 月的社群熱度;② MacBook Pro M5 Max 上社群披露的 ~463 t/s prefill、~34 t/s 生成(量化與上下文相關);③ 官方將生產起點定為 96GB 統一記憶體,128GB 為更穩妥的 Flash 長上下文件位。
把替代方案攤開比較:繼續只用雲端 Claude / GPT API,按 token 計費且程式碼與長上下文出網,合規與 IP 敏感專案成本高;自購 Mac Studio Ultra,CapEx 動輒數十萬且升級週期鎖死;在普通 Linux 雲端 GPU 上硬跑,ds4 的 Metal 最佳化用不上,且 MoE 大模型對顯存拓撲要求不同。在 KVMNODE 按小時或按月租用 128GB / 512GB 雲端 Mac,則把 ds4 的「頂配本機推理」變成可按專案開關的 OpEx:環境預裝、Metal 真機、團隊共享與資料留在獨佔實例,更適合先驗證再決定是否自購硬體。
對需要 iOS CI、OpenClaw Gateway 與 ds4 並存的團隊,建議物理或邏輯分池,不要把 16GB 建置機與 128GB 推理機混為同一 SKU。檔位與價格見 租用價格,下單見 訂購入口,維運範本見 幫助中心。