DeepSeek V4 級モデルをローカルで回し、antirez 新規オープンソース ds4(DwarfStar)に注目している開発者と AI Agent 利用者にとって、2026 年 5 月の論点は「動くか」ではなく、統合メモリ 96GB から、Flash q4 で 256GB、PRO で 512GB というハード請求です。本記事では ds4 が GitHub で一週間 1 万 Star を超えた理由、Metal とディスク KV の技術選択、各メモリ段の対照表、Apple Silicon が大規模ローカル推論の消費者向け最適解である理由を整理し、KVMNODE 128GB / 512GB クラウド Mac 上で六段階の手順により ds4-server を立ち上げ Cursor / opencode に接続する道筋を示します。ストレージとメモリ選定OpenClaw 常駐六地域選定 と併読してください。
01

ds4 とは:Redis 作者が「単一モデル極致」に賭けた DeepSeek V4 エンジン

Salvatore Sanfilippo(antirez)——Redis の作者——は 2026 年に ds4(DwarfStar 4) を公開しました。これはDeepSeek V4 Flash / PRO 専用のローカル推論エンジンで、純 C 実装であり、llama.cpp のラッパーでも汎用 GGUF マーケットでもありません。README は明快で、目標は「個人の頂配マシンや Mac Studio 上で、ローカル推論を日常の Claude / GPT 呼び出しに匹敵させる」ことです。公式ベクトル検証、長コンテキスト試験、コーディング Agent 統合が同梱されています。

公開から数日で GitHub Star は 11,000+ を突破し、Hacker News とコミュニティレビューは共通の焦点を持ちます。284B 級 MoE が MacBook 上でオフラインのツール呼び出しと十万級コンテキストを初めて通したという事実です。2025 年の「7B おもちゃモデル」叙事とは別世界で、ds4 は議論を「動く」から「本番コードに使える」へ押し上げました。KVMNODE 利用者にとって、この熱は大容量メモリ Mac 需要の急勾配を示します。多くの人を止めるのは次節のメモリ壁です。

01

狭く深く:DeepSeek V4 のみにサービスし、Metal グラフ、KV 形式、Tool Calling を一体最適化します。

02

自己完結:ロード、プロンプト描画、ディスク KV、ds4-server、内蔵 coding agent を同一リポジトリで維持します。

03

コミュニティ検証:公開ベンチと第三者 18 タスク試験で、一部シナリオはクラウド Tab 対照を減らせると報告されています。

04

非マルチテナント:現状はリクエスト直列、batch serving なし。個人/小チーム Agent ワークフロー向けです。

05

KVMNODE との接点:クラウド Mac が ds4 が要求する統合メモリ段を提供し、Mac Studio Ultra の自前購入を回避できます。

06

コンプライアンス:重みは DeepSeek とプロジェクト許諾に従い各自取得してください。本文はエンジンとハード経路のみを扱います。

02

技術ハイライト:Metal 優先、百万コンテキスト、ディスク KV が独立節になる理由

ds4 の技術叙事は「Apple Silicon を使い切り、長セッション状態を SSD に預ける」と要約できます。公式とコミュニティが示す主要能力は次のとおりです。

MacBook Pro M5 Max 上では、ds4 は prefill 約 463 token/s、生成約 34 token/s(量子化とコンテキスト長で変動)を報告しており、同クラスの消費者ハードでは第一梯隊です。エンジンは 最大約 100 万 token のコンテキスト窓をサポートし、DeepSeek V4 の圧縮 KV 設計と組み合わせ、「リポジトリ全体+長対話」をローカルで計画可能なシナリオにします。

ディスク KV 永続化は差別化点です。セッション KV をディスクに書き、Mac の高速 SSD で再起動やタスク切替後の prefill 全再計算を避けます。毎日電源を切るノート利用者と「翌日続きから再開」する Agent の双方に効きます。2-bit 非対称量子化はルーティング専門家のみを積極圧縮し、他層は精度を保持するため、Flash は 128GB マシンで実行可能域に入ります。ds4-serverOpenAI と Anthropic 互換エンドポイントを公開し、Cursor、opencode、Claude Code はローカルインスタンスを「私有モデルプロバイダ」として扱えます。

shell
git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README は同時に警告します。macOS で CPU 推論経路がカーネル仮想メモリ不具合を誘発し得るため、本番は Metal(または Linux の CUDA)を使うべきです。「make して何となく実行」はクラウド Mac 運用のチェックリストにも載せるべき項目です。診断ラダー のヘルスプローブ思想と一致します。

03

ハードハードル対照表:Flash q2 の 96GB から PRO 512GB までのコスト

ds4 がどれほど洗練されても、統合メモリ容量は回避できません。下表は公式 README、コミュニティ実測、公開市場価格の目安を統合したものです(円・ドルは概算、構成と為替で変動)。予算策定やレンタル判断用であり、「動く」と「快適に動く」を別価格で見るための資料です。

モデル / 量子化最低統合メモリ典型ハード新品参考価格(概算)クラウドレンタル代替
V4 Flash q296 GBMacBook Pro M3/M4/M5 Max¥300,000+ / $2,500+128GB クラウド Mac を週・月で検証
V4 Flash q4256 GBMac Studio Ultra¥600,000+ / $5,000+短期 spike で Ultra 段、段階的量子化試験
V4 PRO q2512 GBMac Studio M3 Ultra 頂配¥1,100,000+ / $9,000+プロジェクト単位で 512GB インスタンス、終了後停止
CI のみ 16–24GB16–24 GBM4 / M4 Pro クラウドノードds4 本番非推奨Xcode / OpenClaw 用に継続、ds4 は別プール

ソフトは「ローカル V4 可行」を証明しました。障壁は統合メモリの単価であり、C の上手さではありません。

チームに現実的なのは、ds4 検証と日常 iOS CI を別メモリプールに分けることです。16GB·256 / 24GB·512 でビルドと OpenClaw、128GB+ 専用プールで ds4-server——同一台で DerivedData と百万 token KV を同時に満杯にしない設計です。詳細は ストレージとメモリ選定 を参照してください。

04

ds4 が Metal + Mac を第一に据える理由:統合メモリと SSD のシステム級結合

ds4 が Metal を macOS 第一バックエンドとするのはマーケティングではありません。Apple Silicon の 統合メモリアーキテクチャ(UMA) は CPU、GPU、Neural Engine が同一物理メモリを共有し、PC の「VRAM 24GB + RAM 64GB」分断を避けます。大規模推論では 単一の統一アドレス空間 が載せられる量子化重みと KV の上限を直接決めます。M3/M4/M5 の高メモリ帯域は prefill スループットを消費者ハードの上限付近へ押し上げます。

macOS の NVMe と ds4 の ディスク KV が第二の結合です。長セッションをすべて RAM に載せず、SSD からコンテキストブロックを復元できます。リポジトリ内の Linux + CUDA 経路(DGX Spark 最適化含む)もありますが、既に Mac を持ちオフラインでコードを書く開発者にとって、大容量 Mac は現時点で ds4 に最も適した消費者プラットフォームという判断は、antirez の HN 発言とも一致します。

逆に、非 Apple ハードの macOS 仮想マシンや Hackintosh で ds4 を回すのは、ライセンス違反に加え Metal 経路の安定性を損ないます。クラウドでは 実 Apple Silicon ベアメタル を選ぶべきです。「Mac に見える」VDI ではありません。これが KVMNODE が Mac Mini 独占提供を続ける理由のひとつです。

05

六段階:KVMNODE クラウド Mac で ds4-server を立ち上げ Cursor / opencode に接続

以下は 統合メモリ 128GB 以上のクラウド Mac を契約済みである前提です(リージョンは Git と重みダウンロード元に合わせ、六地域選定 参照)。大容量ファイルの取得はオブジェクトストレージや Hugging Face ミラーと同地域に置き、越境遅延を抑えてください。

01

プラン選択:注文ページ で 96GB+ を満たすプランを選びます。試験のみなら日次 spike、長期 Agent 常駐は月次ベースライン(日次 spike 文 参照)。

02

SSH 初回:Xcode CLT、Homebrew、git を確認します。モデルと KV ディレクトリはローカル SSD に置き、iCloud 同期パスは避けます。

03

ds4 ビルド:git clone https://github.com/antirez/ds4 && cd ds4 && make./ds4./ds4-server を生成。本番負荷は CPU-only 経路で試さないでください。

04

重み取得:リポジトリ手順で DeepSeek V4 Flash 推奨 GGUF / ds4 専用重みを取得し、SHA 検証後に固定 MODEL_PATH へ配置します。

05

サービス起動:./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080(社内)または 127.0.0.1 + SSH -L。launchd や pm2 で常駐化し、OpenClaw 常駐 のデーモン作法を流用できます。

06

クライアント接続:Cursor / opencode の Base URL を http://127.0.0.1:8080/v1(またはトンネル先)に設定。チーム共有は Tailscale で推論のみ公開し、トークンを公網に置かないでください。

プライバシー:推論は独占インスタンス内で完結し、会話とコード文脈を第三者 API に強制送信しません。モデル許諾と出站ファイアウォールは各自の責任です。ネットワークとバックアップは ヘルプセンター をご覧ください。

06

引用可能な三データ、方案比較、Mac クラウドレンタル結論

技術レビューや調達文書に転記できる公開口径(上流 README 更新に追随):① 2026 年 5 月時点の GitHub 11k+ Star;② MacBook Pro M5 Max で報告された prefill 約 463 t/s、生成約 34 t/s(量子化・コンテキスト依存);③ 本番起点 統合メモリ 96GB、128GB を Flash 長コンテキストの安定段とする公式目安。

代替案の比較です。クラウド Claude / GPT API のみ——token 課金、コードと長コンテキストの出網、IP 敏感案件ではコストが膨らみます。Mac Studio Ultra 自購——CapEx が数十万〜百万円級でアップグレード周期が固定されます。汎用 Linux クラウド GPU——ds4 の Metal 最適化が効かず、MoE のメモリトポロジも異なります。KVMNODE で 128GB / 512GB クラウド Mac を時間・月単位レンタルすれば、ds4 の「頂配ローカル推論」をプロジェクト単位の OpEx にできます。Metal 実機、データが独占インスタンスに留まる点は、検証後に自前ハードを買うか判断するチームに適しています。

iOS CI、OpenClaw Gateway、ds4 を併走するチームは物理または論理でプール分割し、16GB ビルド機と 128GB 推論機を同一 SKU に混ぜないでください。料金は 料金ページ、手続きは 注文ページ、運用テンプレートは ヘルプセンター からご確認いただけます。