ds4-server を立ち上げ Cursor / opencode に接続する道筋を示します。ストレージとメモリ選定、OpenClaw 常駐、六地域選定 と併読してください。
ds4 とは:Redis 作者が「単一モデル極致」に賭けた DeepSeek V4 エンジン
Salvatore Sanfilippo(antirez)——Redis の作者——は 2026 年に ds4(DwarfStar 4) を公開しました。これはDeepSeek V4 Flash / PRO 専用のローカル推論エンジンで、純 C 実装であり、llama.cpp のラッパーでも汎用 GGUF マーケットでもありません。README は明快で、目標は「個人の頂配マシンや Mac Studio 上で、ローカル推論を日常の Claude / GPT 呼び出しに匹敵させる」ことです。公式ベクトル検証、長コンテキスト試験、コーディング Agent 統合が同梱されています。
公開から数日で GitHub Star は 11,000+ を突破し、Hacker News とコミュニティレビューは共通の焦点を持ちます。284B 級 MoE が MacBook 上でオフラインのツール呼び出しと十万級コンテキストを初めて通したという事実です。2025 年の「7B おもちゃモデル」叙事とは別世界で、ds4 は議論を「動く」から「本番コードに使える」へ押し上げました。KVMNODE 利用者にとって、この熱は大容量メモリ Mac 需要の急勾配を示します。多くの人を止めるのは次節のメモリ壁です。
狭く深く:DeepSeek V4 のみにサービスし、Metal グラフ、KV 形式、Tool Calling を一体最適化します。
自己完結:ロード、プロンプト描画、ディスク KV、ds4-server、内蔵 coding agent を同一リポジトリで維持します。
コミュニティ検証:公開ベンチと第三者 18 タスク試験で、一部シナリオはクラウド Tab 対照を減らせると報告されています。
非マルチテナント:現状はリクエスト直列、batch serving なし。個人/小チーム Agent ワークフロー向けです。
KVMNODE との接点:クラウド Mac が ds4 が要求する統合メモリ段を提供し、Mac Studio Ultra の自前購入を回避できます。
コンプライアンス:重みは DeepSeek とプロジェクト許諾に従い各自取得してください。本文はエンジンとハード経路のみを扱います。
技術ハイライト:Metal 優先、百万コンテキスト、ディスク KV が独立節になる理由
ds4 の技術叙事は「Apple Silicon を使い切り、長セッション状態を SSD に預ける」と要約できます。公式とコミュニティが示す主要能力は次のとおりです。
MacBook Pro M5 Max 上では、ds4 は prefill 約 463 token/s、生成約 34 token/s(量子化とコンテキスト長で変動)を報告しており、同クラスの消費者ハードでは第一梯隊です。エンジンは 最大約 100 万 token のコンテキスト窓をサポートし、DeepSeek V4 の圧縮 KV 設計と組み合わせ、「リポジトリ全体+長対話」をローカルで計画可能なシナリオにします。
ディスク KV 永続化は差別化点です。セッション KV をディスクに書き、Mac の高速 SSD で再起動やタスク切替後の prefill 全再計算を避けます。毎日電源を切るノート利用者と「翌日続きから再開」する Agent の双方に効きます。2-bit 非対称量子化はルーティング専門家のみを積極圧縮し、他層は精度を保持するため、Flash は 128GB マシンで実行可能域に入ります。ds4-server は OpenAI と Anthropic 互換エンドポイントを公開し、Cursor、opencode、Claude Code はローカルインスタンスを「私有モデルプロバイダ」として扱えます。
git clone https://github.com/antirez/ds4 cd ds4 && make ./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080
README は同時に警告します。macOS で CPU 推論経路がカーネル仮想メモリ不具合を誘発し得るため、本番は Metal(または Linux の CUDA)を使うべきです。「make して何となく実行」はクラウド Mac 運用のチェックリストにも載せるべき項目です。診断ラダー のヘルスプローブ思想と一致します。
ハードハードル対照表:Flash q2 の 96GB から PRO 512GB までのコスト
ds4 がどれほど洗練されても、統合メモリ容量は回避できません。下表は公式 README、コミュニティ実測、公開市場価格の目安を統合したものです(円・ドルは概算、構成と為替で変動)。予算策定やレンタル判断用であり、「動く」と「快適に動く」を別価格で見るための資料です。
| モデル / 量子化 | 最低統合メモリ | 典型ハード | 新品参考価格(概算) | クラウドレンタル代替 |
|---|---|---|---|---|
| V4 Flash q2 | 96 GB | MacBook Pro M3/M4/M5 Max | ¥300,000+ / $2,500+ | 128GB クラウド Mac を週・月で検証 |
| V4 Flash q4 | 256 GB | Mac Studio Ultra | ¥600,000+ / $5,000+ | 短期 spike で Ultra 段、段階的量子化試験 |
| V4 PRO q2 | 512 GB | Mac Studio M3 Ultra 頂配 | ¥1,100,000+ / $9,000+ | プロジェクト単位で 512GB インスタンス、終了後停止 |
| CI のみ 16–24GB | 16–24 GB | M4 / M4 Pro クラウドノード | ds4 本番非推奨 | Xcode / OpenClaw 用に継続、ds4 は別プール |
ソフトは「ローカル V4 可行」を証明しました。障壁は統合メモリの単価であり、C の上手さではありません。
チームに現実的なのは、ds4 検証と日常 iOS CI を別メモリプールに分けることです。16GB·256 / 24GB·512 でビルドと OpenClaw、128GB+ 専用プールで ds4-server——同一台で DerivedData と百万 token KV を同時に満杯にしない設計です。詳細は ストレージとメモリ選定 を参照してください。
ds4 が Metal + Mac を第一に据える理由:統合メモリと SSD のシステム級結合
ds4 が Metal を macOS 第一バックエンドとするのはマーケティングではありません。Apple Silicon の 統合メモリアーキテクチャ(UMA) は CPU、GPU、Neural Engine が同一物理メモリを共有し、PC の「VRAM 24GB + RAM 64GB」分断を避けます。大規模推論では 単一の統一アドレス空間 が載せられる量子化重みと KV の上限を直接決めます。M3/M4/M5 の高メモリ帯域は prefill スループットを消費者ハードの上限付近へ押し上げます。
macOS の NVMe と ds4 の ディスク KV が第二の結合です。長セッションをすべて RAM に載せず、SSD からコンテキストブロックを復元できます。リポジトリ内の Linux + CUDA 経路(DGX Spark 最適化含む)もありますが、既に Mac を持ちオフラインでコードを書く開発者にとって、大容量 Mac は現時点で ds4 に最も適した消費者プラットフォームという判断は、antirez の HN 発言とも一致します。
逆に、非 Apple ハードの macOS 仮想マシンや Hackintosh で ds4 を回すのは、ライセンス違反に加え Metal 経路の安定性を損ないます。クラウドでは 実 Apple Silicon ベアメタル を選ぶべきです。「Mac に見える」VDI ではありません。これが KVMNODE が Mac Mini 独占提供を続ける理由のひとつです。
六段階:KVMNODE クラウド Mac で ds4-server を立ち上げ Cursor / opencode に接続
以下は 統合メモリ 128GB 以上のクラウド Mac を契約済みである前提です(リージョンは Git と重みダウンロード元に合わせ、六地域選定 参照)。大容量ファイルの取得はオブジェクトストレージや Hugging Face ミラーと同地域に置き、越境遅延を抑えてください。
プラン選択:注文ページ で 96GB+ を満たすプランを選びます。試験のみなら日次 spike、長期 Agent 常駐は月次ベースライン(日次 spike 文 参照)。
SSH 初回:Xcode CLT、Homebrew、git を確認します。モデルと KV ディレクトリはローカル SSD に置き、iCloud 同期パスは避けます。
ds4 ビルド:git clone https://github.com/antirez/ds4 && cd ds4 && make で ./ds4 と ./ds4-server を生成。本番負荷は CPU-only 経路で試さないでください。
重み取得:リポジトリ手順で DeepSeek V4 Flash 推奨 GGUF / ds4 専用重みを取得し、SHA 検証後に固定 MODEL_PATH へ配置します。
サービス起動:./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080(社内)または 127.0.0.1 + SSH -L。launchd や pm2 で常駐化し、OpenClaw 常駐 のデーモン作法を流用できます。
クライアント接続:Cursor / opencode の Base URL を http://127.0.0.1:8080/v1(またはトンネル先)に設定。チーム共有は Tailscale で推論のみ公開し、トークンを公網に置かないでください。
プライバシー:推論は独占インスタンス内で完結し、会話とコード文脈を第三者 API に強制送信しません。モデル許諾と出站ファイアウォールは各自の責任です。ネットワークとバックアップは ヘルプセンター をご覧ください。
引用可能な三データ、方案比較、Mac クラウドレンタル結論
技術レビューや調達文書に転記できる公開口径(上流 README 更新に追随):① 2026 年 5 月時点の GitHub 11k+ Star;② MacBook Pro M5 Max で報告された prefill 約 463 t/s、生成約 34 t/s(量子化・コンテキスト依存);③ 本番起点 統合メモリ 96GB、128GB を Flash 長コンテキストの安定段とする公式目安。
代替案の比較です。クラウド Claude / GPT API のみ——token 課金、コードと長コンテキストの出網、IP 敏感案件ではコストが膨らみます。Mac Studio Ultra 自購——CapEx が数十万〜百万円級でアップグレード周期が固定されます。汎用 Linux クラウド GPU——ds4 の Metal 最適化が効かず、MoE のメモリトポロジも異なります。KVMNODE で 128GB / 512GB クラウド Mac を時間・月単位レンタルすれば、ds4 の「頂配ローカル推論」をプロジェクト単位の OpEx にできます。Metal 実機、データが独占インスタンスに留まる点は、検証後に自前ハードを買うか判断するチームに適しています。
iOS CI、OpenClaw Gateway、ds4 を併走するチームは物理または論理でプール分割し、16GB ビルド機と 128GB 推論機を同一 SKU に混ぜないでください。料金は 料金ページ、手続きは 注文ページ、運用テンプレートは ヘルプセンター からご確認いただけます。