Worin unterscheidet sich ds4 von llama.cpp oder Ollama?

ds4 ist kein allgemeiner GGUF-Loader, sondern nur fuer DeepSeek V4 Flash mit Metal/CUDA-Graph, KV auf Disk und Agent-API. Fuer andere Modelle llama.cpp/Ollama; fuer V4-Lokalfront mit Cursor/opencode ds4.

Laeuft ds4 auf einem Mac mit nur 64 GB Unified Memory?

Das offizielle README setzt 96 GB als Produktionsstart. 64 GB reichen fuer volle q2-Flash-Gewichte und lange KV kaum. Mieten Sie einen 128GB-Cloud-Mac zur Validierung; CI bleibt auf 16–24GB-Knoten laut Preisseite.

Gehen Modellgewichte und Gespraechsdaten bei Cloud-ds4 ueber oeffentliche LLM-APIs?

Inferenz laeuft auf Ihrer dedizierten Instanz ueber lokalen ds4-server; kein Zwang zu Claude/GPT-APIs. DSGVO: Sie bleiben Verantwortlicher; Auftragsverarbeitung und Netzwerk siehe Hilfezentrum und Bestellseite.

DeepSeek V4 lokal 2026? antirez' ds4 und Mac-Cloud-Miete: Spitzen-Inferenz ab 96 GB Unified Memory

Wer DeepSeek V4 auf eigener Hardware fahren will und antirez' frisch geoeffnetes ds4 (DwarfStar) in Feeds und auf Hacker News verfolgt, steht im Mai 2026 nicht vor der Frage „geht das“, sondern vor der Hardware-Rechnung ab 96 GB Unified Memory, 256 GB fuer Flash q4 und 512 GB fuer PRO. Der Beitrag erklaert, warum ds4 innerhalb einer Woche ueber 11.000 GitHub-Stars erreichte, welche Rolle Metal und KV auf der SSD spielen, was die Speicherstufen kosten und warum Apple Silicon fuer diese Workload die beste Consumer-Plattform bleibt. Abschluss: sechs Schritte fuer ds4-server auf KVMNODE-128GB-/512GB-Cloud-Macs plus Anbindung von Cursor oder opencode. Querverweise: Speicher- und RAM-Auswahl, OpenClaw-Dauerbetrieb, Sechs-Regionen-Plan.

Was ds4 ist: Redis-Autor setzt auf ein einziges Modell – DeepSeek V4

Salvatore Sanfilippo (antirez), Autor von Redis, hat 2026 ds4 (DwarfStar 4) veroeffentlicht: eine lokale Inferenz-Engine ausschliesslich fuer DeepSeek V4 Flash und PRO, in reinem C, ohne llama.cpp-Huelle und ohne GGUF-Marktplatz. Das README formuliert das Ziel klar: Inferenz auf einer Spitzen-Maschine oder Mac Studio soll Alltags-Claude-/GPT-Aufrufe ersetzen koennen – mit offiziellen Vektor-Checks, Langkontext-Tests und Coding-Agent-Integration.

Binnen weniger Tage ueberschritt das Projekt 11.000+ GitHub-Stars. Community und Hacker News kreisten um dieselbe Beobachtung: ein MoE mit rund 284B Parametern laeuft offline auf dem MacBook mit Tool Calling und sechsstelliger Kontextlaenge. Das ist kein 7B-Spielzeug mehr wie 2025. ds4 verschiebt die Debatte von „laeuft es“ zu „wuerde ich damit Produktionscode schreiben“. Fuer KVMNODE-Kunden signalisiert der Hype eine steilere Nachfrage nach High-Memory-Macs; die eigentliche Bremse ist die Speicherwand im naechsten Abschnitt.

Wer bereits OpenClaw oder Cursor-Agenten auf einem 24GB-Cloud-Mac betreibt, sollte ds4 nicht auf dieselbe SKU legen: die Kombination aus Gateway-Prozess, Node-Toolchain und Millionen-Token-KV sprengt den Speicherplan innerhalb weniger Sprints. Planen Sie stattdessen einen dedizierten 128GB-Knoten und dokumentieren Sie in der technischen Architektur, dass Inferenz und CI getrennte Verarbeitungszwecke sind – relevant fuer DSGVO-Verzeichnisse und interne Security-Reviews.

Schmal und tief: nur DeepSeek V4 – dafuer Metal-Graphen, KV-Format und Tool Calling gemeinsam optimiert.

Selbst enthalten: Laden, Prompt-Rendering, Disk-KV, ds4-server und eingebauter Coding-Agent in einem Repo.

Community-Benchmarks: oeffentliche Messungen und 18-Aufgaben-Suiten zeigen: weniger Cloud-Tabs noetig.

Kein Multi-Tenant: serielle Anfragen, kein Batch-Serving – fuer Solo- oder Kleinteam-Agenten.

Schnittmenge KVMNODE: Cloud-Mac-SKUs liefern die Unified-Memory-Stufen ohne Mac Studio Ultra-Kauf.

Compliance: Gewichte unter DeepSeek- und Projekt-Lizenz selbst laden; hier nur Engine und Hardware.

Technik: Metal zuerst, Millionen-Token-Kontext, KV auf der SSD

Die ds4-Erzaehlung laesst sich auf Apple Silicon ausreizen, Langsession-Zustand auf SSD legen reduzieren. Gemeldete Faehigkeiten aus Projekt und Reviews:

Auf MacBook Pro M5 Max wurden grob 463 Token/s Prefill und etwa 34 Token/s Generierung genannt (Quantisierung und Kontextlaenge verschieben die Werte). Damit liegt die Engine in der ersten Liga unter Consumer-Hardware. Angegeben wird ein Kontextfenster bis etwa eine Million Token, zusammen mit DeepSeek V4s komprimiertem KV – „gesamtes Repo plus langer Chat“ wird planbar statt Demo.

KV-Persistenz auf Disk unterscheidet ds4: Sitzungs-KV kann auf schnelle Mac-SSDs, Neustarts vermeiden volles Prefill. Wichtig fuer Notebooks und Agenten, die gestern weitermachen muessen. 2-Bit-Asymmetrische Quantisierung drueckt Routing-Experten, andere Schichten bleiben praeziser – so wird Flash auf 128GB-Maschinen realistisch. ds4-server bietet OpenAI- und Anthropic-kompatible Endpunkte fuer Cursor, opencode und Claude Code.

shell

git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

Das README warnt: unter macOS kann der CPU-Inferenz-Pfad Kernel-VM-Bugs ausloesen – Produktion mit Metal (Linux: CUDA). Das gehoert ins Cloud-Mac-Runbook neben den Health-Probes aus der OpenClaw-Diagnoseleiter.

In der Praxis bedeutet das: nach jedem make clean && make einen kurzen Metal-Smoke-Test mit festem Prompt und festem --ctx, Ergebnisse in Ihrem Ticket-System archivieren. So erkennen Sie Regressionen nach Xcode- oder macOS-Updates frueh, bevor Ihr Team Cursor auf eine instabile Instanz zeigt.

Hardware-Tabelle: Flash q2 ab 96 GB bis PRO mit 512 GB

Elegante Engine hin oder her – Unified Memory setzt die Grenze. Die Tabelle fasst README, Community und Marktpreise zusammen (EUR/USD-Naeherungen; Konfiguration und FX schwanken). Nutzen Sie sie fuer Budget oder Miete: „laeuft“ und „laeuft angenehm“ getrennt bepreisen.

Modell / Quantisierung	Min. Unified Memory	Typische Hardware	Neupreis (ca.)	Cloud-Miete
V4 Flash q2	96 GB	MacBook Pro M3/M4/M5 Max	30.000+ EUR	128GB-Cloud-Mac Woche/Monat
V4 Flash q4	256 GB	Mac Studio Ultra	60.000+ EUR	Kurzzeit-Ultra-Spike oder gestaffelte Tests
V4 PRO q2	512 GB	Mac Studio M3 Ultra Top	110.000+ EUR	512GB-Instanz projektweise, danach stoppen
nur CI / 16–24GB	16–24 GB	M4 / M4 Pro Cloud	nicht fuer ds4-Produktion	Xcode/OpenClaw; ds4 eigener Pool

Die Software beweist: V4 lokal geht. Die Bremse ist der Stueckpreis fuer Unified Memory – nicht die C-Qualitaet.

Pragmatisch: ds4-Validierung von iOS-CI trennen – 16GB·256 oder 24GB·512 fuer Builds und OpenClaw, 128GB+ nur fuer ds4-server, damit DerivedData und Millionen-Token-KV nicht konkurrieren. Details: Speicher- und RAM-Paarung.

Warum Metal und Mac zuerst: Unified Memory plus SSD als Systemkopplung

Metal als primaerer macOS-Backend ist keine Werbung. Apple Silicon UMA teilt CPU, GPU und Neural Engine einen physischen Speicher – kein PC-Split „24GB VRAM + 64GB RAM“. Fuer LLM-Inferenz bestimmt ein adressierbarer Raum Gewichte und KV. M3/M4/M5-Bandbreite treibt Prefill an die Consumer-Grenze.

macOS-NVMe und ds4-Disk-KV koppeln sich: lange Sessions muessen nicht voll im RAM liegen; Kaltstart laedt Kontextbloecke von der SSD. Linux/CUDA (inkl. DGX Spark) existiert im Repo – wer bereits Macs nutzt und offline coden will, trifft mit High-Memory-Mac die beste Consumer-Plattform fuer ds4 zu, wie antirez auf HN schreibt.

ds4 in macOS-VMs auf Nicht-Apple-Hardware oder Hackintosh verliert Metal und Lizenz. Cloud braucht echtes Bare-Metal Apple Silicon – deshalb liefert KVMNODE dedizierte Mac Mini, keine „Mac-aehnlichen“ Desktops.

Fuer europaeische Teams mit DSGVO-Anforderungen ist der Vorteil klar: lokale Inferenz auf einer gemieteten Instanz in der gewaehlten Region reduziert Datenuebermittlungen an US-Cloud-LLMs, sofern Prompts keine externen APIs aufrufen. Sie bleiben Verantwortlicher; KVMNODE stellt die Infrastruktur bereit – Vertraege, Region und Loeschkonzept gehoeren in Ihr Verzeichnis von Verarbeitungstaetigkeiten. Vergleichen Sie das mit SaaS-Inferenz, bei der jeder Token typischerweise in Drittstaaten verarbeitet wird.

Sechs Schritte: ds4-server auf KVMNODE-Cloud-Mac und Cursor / opencode

Voraussetzung: Cloud-Mac mit 128 GB oder mehr Unified Memory. Region nach Git-Remote und Gewichts-Quelle waehlen, siehe Sechs-Regionen-Leitfaden. Grosse Downloads: Objektspeicher oder Hugging-Face-Spiegel in derselben Region.

Stufe waehlen: auf der Bestellseite Paket ab 96GB; Tagesspitze fuer Tests, Monatsbaseline fuer Agenten (Tagesspitze-Artikel).

Erster SSH-Login: Xcode CLT, Homebrew, git; Modelle und KV auf lokale SSD, nicht in iCloud-Sync-Ordner.

ds4 bauen: git clone https://github.com/antirez/ds4 && cd ds4 && make; ./ds4 und ./ds4-server pruefen; kein CPU-only in Produktion.

Gewichte laden: DeepSeek V4 Flash laut Skript; SHA pruefen, festes MODEL_PATH.

Dienst starten: ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080 im Intranet oder 127.0.0.1 + SSH -L; launchd/pm2 wie OpenClaw-Dauerbetrieb.

Clients: Cursor/opencode Base URL auf http://127.0.0.1:8080/v1; Team: read-only ueber Tailscale, keine Tokens im oeffentlichen Netz.

Datenschutz / DSGVO: Inferenz auf Ihrer dedizierten Instanz; Prompts und Code-Kontext werden nicht zu Claude/GPT-APIs gezwungen. Sie bleiben Verantwortlicher; bei personenbezogenen Inhalten in Prompts Auftragsverarbeitung mit KVMNODE und Verzeichnis dokumentieren. Netzwerk und Backup: Hilfezentrum.

Drei Zitate, Alternativen, Fazit Cloud-Mac-Miete

Fuer Reviews oder Beschaffung: ① GitHub 11k+ Stars (Mai 2026); ② Community ~463 t/s Prefill, ~34 t/s Generierung auf M5 Max; ③ offizieller Produktionsboden 96 GB, 128 GB sicherer fuer Flash-Langkontext.

Alternativen: nur Claude/GPT-API – Token-Kosten, Code und Langkontext verlassen die EU-Instanz, DSGVO-Risiko bei US-Anbietern. Mac Studio Ultra kaufen – hohe CapEx, starre Upgrade-Zyklen. ds4 auf generischer Linux-GPU-Cloud – ohne Metal, andere MoE-Topologie. KVMNODE 128GB/512GB stunden- oder monatsweise mieten – ds4-Spitzen-Inferenz als OpEx, Daten auf dedizierter Instanz (kein Dritt-LLM-Zwang), ideal vor Hardware-Kauf – AVV und Region in der Datenschutzerklaerung pruefen.

Teams mit iOS-CI, OpenClaw und ds4: Pools trennen. Nutzen Sie Tagesspitzen fuer Benchmark-Wochen und Monatsbaselines fuer dauerhafte Agenten. Nach erfolgreicher Validierung koennen Sie CapEx fuer ein Studio Ultra gegenlaufen lassen – viele Teams stellen fest, dass gemietete 128GB-Spitzen 80 Prozent der Nutzung abdecken und nur gelegentliche 512GB-Projekte Extra-Hardware rechtfertigen.

Preise: Mietpreise, Bestellung: Bestellseite, Runbooks: Hilfezentrum.

Zurueck zum Blog Jetzt mieten