ds4-server auf KVMNODE-128GB-/512GB-Cloud-Macs plus Anbindung von Cursor oder opencode. Querverweise: Speicher- und RAM-Auswahl, OpenClaw-Dauerbetrieb, Sechs-Regionen-Plan.
Was ds4 ist: Redis-Autor setzt auf ein einziges Modell – DeepSeek V4
Salvatore Sanfilippo (antirez), Autor von Redis, hat 2026 ds4 (DwarfStar 4) veroeffentlicht: eine lokale Inferenz-Engine ausschliesslich fuer DeepSeek V4 Flash und PRO, in reinem C, ohne llama.cpp-Huelle und ohne GGUF-Marktplatz. Das README formuliert das Ziel klar: Inferenz auf einer Spitzen-Maschine oder Mac Studio soll Alltags-Claude-/GPT-Aufrufe ersetzen koennen – mit offiziellen Vektor-Checks, Langkontext-Tests und Coding-Agent-Integration.
Binnen weniger Tage ueberschritt das Projekt 11.000+ GitHub-Stars. Community und Hacker News kreisten um dieselbe Beobachtung: ein MoE mit rund 284B Parametern laeuft offline auf dem MacBook mit Tool Calling und sechsstelliger Kontextlaenge. Das ist kein 7B-Spielzeug mehr wie 2025. ds4 verschiebt die Debatte von „laeuft es“ zu „wuerde ich damit Produktionscode schreiben“. Fuer KVMNODE-Kunden signalisiert der Hype eine steilere Nachfrage nach High-Memory-Macs; die eigentliche Bremse ist die Speicherwand im naechsten Abschnitt.
Wer bereits OpenClaw oder Cursor-Agenten auf einem 24GB-Cloud-Mac betreibt, sollte ds4 nicht auf dieselbe SKU legen: die Kombination aus Gateway-Prozess, Node-Toolchain und Millionen-Token-KV sprengt den Speicherplan innerhalb weniger Sprints. Planen Sie stattdessen einen dedizierten 128GB-Knoten und dokumentieren Sie in der technischen Architektur, dass Inferenz und CI getrennte Verarbeitungszwecke sind – relevant fuer DSGVO-Verzeichnisse und interne Security-Reviews.
Schmal und tief: nur DeepSeek V4 – dafuer Metal-Graphen, KV-Format und Tool Calling gemeinsam optimiert.
Selbst enthalten: Laden, Prompt-Rendering, Disk-KV, ds4-server und eingebauter Coding-Agent in einem Repo.
Community-Benchmarks: oeffentliche Messungen und 18-Aufgaben-Suiten zeigen: weniger Cloud-Tabs noetig.
Kein Multi-Tenant: serielle Anfragen, kein Batch-Serving – fuer Solo- oder Kleinteam-Agenten.
Schnittmenge KVMNODE: Cloud-Mac-SKUs liefern die Unified-Memory-Stufen ohne Mac Studio Ultra-Kauf.
Compliance: Gewichte unter DeepSeek- und Projekt-Lizenz selbst laden; hier nur Engine und Hardware.
Technik: Metal zuerst, Millionen-Token-Kontext, KV auf der SSD
Die ds4-Erzaehlung laesst sich auf Apple Silicon ausreizen, Langsession-Zustand auf SSD legen reduzieren. Gemeldete Faehigkeiten aus Projekt und Reviews:
Auf MacBook Pro M5 Max wurden grob 463 Token/s Prefill und etwa 34 Token/s Generierung genannt (Quantisierung und Kontextlaenge verschieben die Werte). Damit liegt die Engine in der ersten Liga unter Consumer-Hardware. Angegeben wird ein Kontextfenster bis etwa eine Million Token, zusammen mit DeepSeek V4s komprimiertem KV – „gesamtes Repo plus langer Chat“ wird planbar statt Demo.
KV-Persistenz auf Disk unterscheidet ds4: Sitzungs-KV kann auf schnelle Mac-SSDs, Neustarts vermeiden volles Prefill. Wichtig fuer Notebooks und Agenten, die gestern weitermachen muessen. 2-Bit-Asymmetrische Quantisierung drueckt Routing-Experten, andere Schichten bleiben praeziser – so wird Flash auf 128GB-Maschinen realistisch. ds4-server bietet OpenAI- und Anthropic-kompatible Endpunkte fuer Cursor, opencode und Claude Code.
git clone https://github.com/antirez/ds4 cd ds4 && make ./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080
Das README warnt: unter macOS kann der CPU-Inferenz-Pfad Kernel-VM-Bugs ausloesen – Produktion mit Metal (Linux: CUDA). Das gehoert ins Cloud-Mac-Runbook neben den Health-Probes aus der OpenClaw-Diagnoseleiter.
In der Praxis bedeutet das: nach jedem make clean && make einen kurzen Metal-Smoke-Test mit festem Prompt und festem --ctx, Ergebnisse in Ihrem Ticket-System archivieren. So erkennen Sie Regressionen nach Xcode- oder macOS-Updates frueh, bevor Ihr Team Cursor auf eine instabile Instanz zeigt.
Hardware-Tabelle: Flash q2 ab 96 GB bis PRO mit 512 GB
Elegante Engine hin oder her – Unified Memory setzt die Grenze. Die Tabelle fasst README, Community und Marktpreise zusammen (EUR/USD-Naeherungen; Konfiguration und FX schwanken). Nutzen Sie sie fuer Budget oder Miete: „laeuft“ und „laeuft angenehm“ getrennt bepreisen.
| Modell / Quantisierung | Min. Unified Memory | Typische Hardware | Neupreis (ca.) | Cloud-Miete |
|---|---|---|---|---|
| V4 Flash q2 | 96 GB | MacBook Pro M3/M4/M5 Max | 30.000+ EUR | 128GB-Cloud-Mac Woche/Monat |
| V4 Flash q4 | 256 GB | Mac Studio Ultra | 60.000+ EUR | Kurzzeit-Ultra-Spike oder gestaffelte Tests |
| V4 PRO q2 | 512 GB | Mac Studio M3 Ultra Top | 110.000+ EUR | 512GB-Instanz projektweise, danach stoppen |
| nur CI / 16–24GB | 16–24 GB | M4 / M4 Pro Cloud | nicht fuer ds4-Produktion | Xcode/OpenClaw; ds4 eigener Pool |
Die Software beweist: V4 lokal geht. Die Bremse ist der Stueckpreis fuer Unified Memory – nicht die C-Qualitaet.
Pragmatisch: ds4-Validierung von iOS-CI trennen – 16GB·256 oder 24GB·512 fuer Builds und OpenClaw, 128GB+ nur fuer ds4-server, damit DerivedData und Millionen-Token-KV nicht konkurrieren. Details: Speicher- und RAM-Paarung.
Warum Metal und Mac zuerst: Unified Memory plus SSD als Systemkopplung
Metal als primaerer macOS-Backend ist keine Werbung. Apple Silicon UMA teilt CPU, GPU und Neural Engine einen physischen Speicher – kein PC-Split „24GB VRAM + 64GB RAM“. Fuer LLM-Inferenz bestimmt ein adressierbarer Raum Gewichte und KV. M3/M4/M5-Bandbreite treibt Prefill an die Consumer-Grenze.
macOS-NVMe und ds4-Disk-KV koppeln sich: lange Sessions muessen nicht voll im RAM liegen; Kaltstart laedt Kontextbloecke von der SSD. Linux/CUDA (inkl. DGX Spark) existiert im Repo – wer bereits Macs nutzt und offline coden will, trifft mit High-Memory-Mac die beste Consumer-Plattform fuer ds4 zu, wie antirez auf HN schreibt.
ds4 in macOS-VMs auf Nicht-Apple-Hardware oder Hackintosh verliert Metal und Lizenz. Cloud braucht echtes Bare-Metal Apple Silicon – deshalb liefert KVMNODE dedizierte Mac Mini, keine „Mac-aehnlichen“ Desktops.
Fuer europaeische Teams mit DSGVO-Anforderungen ist der Vorteil klar: lokale Inferenz auf einer gemieteten Instanz in der gewaehlten Region reduziert Datenuebermittlungen an US-Cloud-LLMs, sofern Prompts keine externen APIs aufrufen. Sie bleiben Verantwortlicher; KVMNODE stellt die Infrastruktur bereit – Vertraege, Region und Loeschkonzept gehoeren in Ihr Verzeichnis von Verarbeitungstaetigkeiten. Vergleichen Sie das mit SaaS-Inferenz, bei der jeder Token typischerweise in Drittstaaten verarbeitet wird.
Sechs Schritte: ds4-server auf KVMNODE-Cloud-Mac und Cursor / opencode
Voraussetzung: Cloud-Mac mit 128 GB oder mehr Unified Memory. Region nach Git-Remote und Gewichts-Quelle waehlen, siehe Sechs-Regionen-Leitfaden. Grosse Downloads: Objektspeicher oder Hugging-Face-Spiegel in derselben Region.
Stufe waehlen: auf der Bestellseite Paket ab 96GB; Tagesspitze fuer Tests, Monatsbaseline fuer Agenten (Tagesspitze-Artikel).
Erster SSH-Login: Xcode CLT, Homebrew, git; Modelle und KV auf lokale SSD, nicht in iCloud-Sync-Ordner.
ds4 bauen: git clone https://github.com/antirez/ds4 && cd ds4 && make; ./ds4 und ./ds4-server pruefen; kein CPU-only in Produktion.
Gewichte laden: DeepSeek V4 Flash laut Skript; SHA pruefen, festes MODEL_PATH.
Dienst starten: ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080 im Intranet oder 127.0.0.1 + SSH -L; launchd/pm2 wie OpenClaw-Dauerbetrieb.
Clients: Cursor/opencode Base URL auf http://127.0.0.1:8080/v1; Team: read-only ueber Tailscale, keine Tokens im oeffentlichen Netz.
Datenschutz / DSGVO: Inferenz auf Ihrer dedizierten Instanz; Prompts und Code-Kontext werden nicht zu Claude/GPT-APIs gezwungen. Sie bleiben Verantwortlicher; bei personenbezogenen Inhalten in Prompts Auftragsverarbeitung mit KVMNODE und Verzeichnis dokumentieren. Netzwerk und Backup: Hilfezentrum.
Drei Zitate, Alternativen, Fazit Cloud-Mac-Miete
Fuer Reviews oder Beschaffung: ① GitHub 11k+ Stars (Mai 2026); ② Community ~463 t/s Prefill, ~34 t/s Generierung auf M5 Max; ③ offizieller Produktionsboden 96 GB, 128 GB sicherer fuer Flash-Langkontext.
Alternativen: nur Claude/GPT-API – Token-Kosten, Code und Langkontext verlassen die EU-Instanz, DSGVO-Risiko bei US-Anbietern. Mac Studio Ultra kaufen – hohe CapEx, starre Upgrade-Zyklen. ds4 auf generischer Linux-GPU-Cloud – ohne Metal, andere MoE-Topologie. KVMNODE 128GB/512GB stunden- oder monatsweise mieten – ds4-Spitzen-Inferenz als OpEx, Daten auf dedizierter Instanz (kein Dritt-LLM-Zwang), ideal vor Hardware-Kauf – AVV und Region in der Datenschutzerklaerung pruefen.
Teams mit iOS-CI, OpenClaw und ds4: Pools trennen. Nutzen Sie Tagesspitzen fuer Benchmark-Wochen und Monatsbaselines fuer dauerhafte Agenten. Nach erfolgreicher Validierung koennen Sie CapEx fuer ein Studio Ultra gegenlaufen lassen – viele Teams stellen fest, dass gemietete 128GB-Spitzen 80 Prozent der Nutzung abdecken und nur gelegentliche 512GB-Projekte Extra-Hardware rechtfertigen.
Preise: Mietpreise, Bestellung: Bestellseite, Runbooks: Hilfezentrum.