En quoi ds4 differe-t-il de llama.cpp ou Ollama ?

ds4 n'est pas un chargeur GGUF general : il cible uniquement DeepSeek V4 Flash avec execution Metal/CUDA, KV sur disque et API Agent. Pour changer de modele, llama.cpp ou Ollama ; pour V4 en local avec Cursor ou opencode, ds4.

ds4 fonctionne-t-il sur un Mac avec seulement 64 Go de memoire unifiee ?

Le README officiel fixe 96 Go comme seuil de production. 64 Go peinent a charger les poids q2 Flash complets et un KV long. Louez un Mac cloud 128 Go pour valider ; gardez les noeuds 16–24 Go pour la CI selon la page tarifs.

Les donnees de conversation passent-elles par une API LLM tierce sur un Mac cloud ?

L'inference s'execute sur votre instance dediee via ds4-server local ; aucune obligation d'appeler Claude ou GPT. Vous restez responsable des licences modele et de la politique de sortie reseau. Voir le centre d'aide et la page de commande.

DeepSeek V4 en local en 2026 ? ds4 d'antirez et location Mac cloud : inference haut de gamme au-dela du seuil 96 Go

Si vous visez des modeles de classe DeepSeek V4 sur votre propre materiel et si ds4 (DwarfStar), tout juste open-source par antirez, occupe deja vos fils techniques, mai 2026 ne pose plus la question « est-ce possible » mais celle du cout materiel : 96 Go de memoire unifiee au minimum, 256 Go pour Flash q4, 512 Go pour PRO. Cet article explique pourquoi ds4 a depasse 11 000 etoiles GitHub en une semaine, comment Metal et le KV sur disque modifient les arbitrages, ce que coutent les paliers memoire, et pourquoi Apple Silicon reste la meilleure plateforme grand public pour cette charge. Il se conclut par six etapes pour lancer ds4-server sur des Mac cloud KVMNODE 128 Go / 512 Go et brancher Cursor ou opencode. A lire avec dimensionnement stockage et memoire, persistance OpenClaw et choix des six regions.

Ce qu'est ds4 : l'auteur de Redis parie sur l'excellence d'un seul modele — DeepSeek V4

Salvatore Sanfilippo (antirez), auteur de Redis, a publie en 2026 ds4 (DwarfStar 4) : un moteur d'inference local reserve a DeepSeek V4 Flash et PRO, ecrit en C pur, sans enveloppe llama.cpp ni marche GGUF generaliste. Le README fixe l'objectif : rendre l'inference locale sur une machine haut de gamme ou un Mac Studio assez fiable pour remplacer les appels quotidiens a Claude ou GPT, avec controles vectoriels officiels, tests long contexte et integration agents de codage.

En quelques jours le projet a depasse 11 000 etoiles GitHub. Hacker News et les revues communautaires convergent : un MoE d'environ 284 milliards de parametres tourne hors ligne sur MacBook avec appels d'outils et fenetres de contexte a six chiffres. Le debat a quitte l'ere des modeles 7B « jouets » de 2025. ds4 fait passer la question de « cela tourne » a « j'enverrais du code de production avec ». Pour les clients KVMNODE, l'engouement signale une courbe de demande plus raide pour les Mac a forte memoire ; le verrou suivant est le mur memoire.

Etroit et profond : DeepSeek V4 uniquement, ce qui permet d'optimiser ensemble graphes Metal, format KV et tool calling.

Autonome : chargement, rendu de prompt, KV disque, ds4-server et agent de codage integre dans un seul depot.

Validation communautaire : benchmarks publics et batteries de 18 taches montrent des flux ou l'on ouvre moins d'onglets cloud.

Pas multi-tenant : traitement serialise, pas de batch serving ; vise les workflows agent solo ou petite equipe.

Intersection KVMNODE : les SKU Mac cloud fournissent les paliers de memoire unifiee sans achat immediat de Mac Studio Ultra.

Conformite : les poids se telechargent sous licence DeepSeek et projet ; cet article ne traite que moteur et materiel.

Points techniques : Metal en priorite, contexte million de tokens, KV sur disque

Le recit ds4 se resume ainsi : saturer Apple Silicon, deleguer l'etat de longue session au SSD. Capacites annoncees par le projet et les premiers retours :

Sur MacBook Pro M5 Max, ds4 a ete cite autour de 463 token/s en prefill et environ 34 token/s en generation (la quantification et la longueur de contexte deplacent les chiffres). Cela place le moteur dans le premier rang du materiel grand public. Il annonce une fenetre de contexte jusqu'a environ un million de tokens, avec le KV compresse de DeepSeek V4 : « depot entier plus long echange » devient planifiable, pas seulement demonstratif.

La persistence KV sur disque distingue ds4 : le KV de session peut etre ecrit sur SSD Mac rapides pour eviter un prefill integral apres redemarrage ou changement de tache. Utile pour les portables qui dorment chaque nuit et pour les agents qui reprennent la veille. La quantification asymetrique 2 bits compresse agressivement les experts de routage tout en preservant la precision des autres couches, rendant Flash viable sur machines 128 Go. ds4-server expose des points de terminaison compatibles OpenAI et Anthropic pour que Cursor, opencode et Claude Code traitent l'instance comme un fournisseur prive.

shell

git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

Le README avertit aussi : sous macOS, le chemin d'inference CPU peut declencher des defauts de memoire virtuelle noyau ; la production doit utiliser Metal (ou CUDA sous Linux). A inscrire au runbook Mac cloud avec les sondes de l'echelle de diagnostic OpenClaw.

Tableau des seuils materiels : Flash q2 de 96 Go a PRO 512 Go

Quelle que soit l'elegance du moteur, la capacite de memoire unifiee fixe le plafond. Le tableau ci-dessous fusionne README officiel, mesures communautaires et prix publics (euros approximatifs ; configuration et change fluctuent). Utilisez-le pour budget ou location : distinguer « tourne » et « tourne confortablement ».

Modele / quant	Memoire unifiee min.	Materiel type	Prix neuf (approx.)	Angle location cloud
V4 Flash q2	96 Go	MacBook Pro M3/M4/M5 Max	30 000+ EUR	Mac cloud 128 Go a la semaine ou au mois
V4 Flash q4	256 Go	Mac Studio Ultra	60 000+ EUR	Pic court palier Ultra ou essais quantifies
V4 PRO q2	512 Go	Mac Studio M3 Ultra max	110 000+ EUR	Instance 512 Go par projet, arret a la fin
CI seule / 16–24 Go	16–24 Go	Noeuds cloud M4 / M4 Pro	Non pour ds4 production	Garder pour Xcode / OpenClaw ; pool ds4 separe

Le logiciel a prouve que V4 en local est faisable ; ce qui bloque, c'est le prix unitaire de la memoire unifiee, pas la qualite du C.

Pour les equipes, la voie pragmatique : separer validation ds4 et CI iOS quotidienne — 16 Go·256 ou 24 Go·512 pour builds et OpenClaw, 128 Go+ dedies a ds4-server, afin que DerivedData et KV million de tokens ne se disputent pas un meme SKU. Details dans appariement stockage et memoire.

Pourquoi ds4 place Metal et Mac en tete : memoire unifiee et SSD en couplage systeme

Presenter Metal comme backend macOS principal n'est pas du marketing. L'architecture memoire unifiee (UMA) d'Apple Silicon partage un pool physique entre CPU, GPU et Neural Engine, evitant la coupure PC « 24 Go VRAM + 64 Go RAM ». Pour l'inference de grands modeles, un espace adressable unique borne directement poids quantifies et taille de KV. La bande passante memoire M3/M4/M5 pousse le prefill vers le plafond grand public.

Le NVMe macOS forme un second couplage avec le KV disque de ds4 : les longues sessions n'ont pas besoin de tout resider en RAM ; un demarrage a froid peut recharger des blocs de contexte depuis le SSD. Un chemin Linux + CUDA (dont optimisations DGX Spark) existe dans le depot ; pour les developpeurs deja equipes en Mac et souhaitant coder hors ligne, Mac a forte memoire reste la meilleure plateforme grand public pour ds4 aujourd'hui, en ligne avec les interventions d'antirez sur Hacker News.

Executer ds4 dans des VM macOS sur materiel non Apple ou des hackintosh sacrifie stabilite Metal et conformite licence. Le cloud doit utiliser de vrais noeuds Apple Silicon bare metal — raison pour laquelle KVMNODE livre du Mac Mini dedie plutot que des bureaux « style Mac ».

Six etapes pour monter ds4-server sur Mac cloud KVMNODE et connecter Cursor / opencode

Les etapes supposent un Mac cloud commande avec 128 Go ou plus de memoire unifiee. Choisissez la region selon le remote Git et la source des poids, voir guide six regions. Les fichiers modele sont volumineux ; alignez stockage objet ou miroir Hugging Face dans la meme region pour limiter la latence transoceanique.

Choisir le palier : sur la page de commande, forfait 96 Go+ ; pic journalier pour essais, baseline mensuelle pour agents durables (article pic quotidien).

Premiere connexion SSH : verifier Xcode CLT, Homebrew, git ; placer modeles et KV sur SSD local, jamais dans un dossier synchronise iCloud.

Compiler ds4 : git clone https://github.com/antirez/ds4 && cd ds4 && make ; verifier ./ds4 et ./ds4-server ; pas de chemin CPU-only en charge production.

Telecharger les poids : DeepSeek V4 Flash selon scripts du depot ; verifier SHA, fixer MODEL_PATH.

Demarrer le service : ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080 en reseau prive, ou 127.0.0.1 + SSH -L ; launchd ou pm2 selon persistance OpenClaw.

Clients : Base URL Cursor / opencode vers http://127.0.0.1:8080/v1 ; partage equipe en lecture seule via Tailscale, jamais de jetons sur Internet public.

Posture confidentialite : l'inference reste sur votre instance dediee ; le chat et le contexte code ne sont pas forces vers des API LLM tierces. Vous restez responsable des licences modele et du pare-feu sortant. Reseau et sauvegarde : centre d'aide.

Trois chiffres citables, alternatives et conclusion location Mac cloud

Pour revue technique ou note d'achat, citez ces donnees publiques (elles evoluent avec le README amont) : ① GitHub 11k+ etoiles refletant l'elan de mai 2026 ; ② communaute ~463 t/s prefill et ~34 t/s generation sur MacBook Pro M5 Max ; ③ seuil production officiel 96 Go memoire unifiee, 128 Go plus sur pour Flash long contexte.

Comparez les alternatives. API Claude / GPT seules : facturation au token, code et long contexte sortent du perimetre, cout eleve pour projets sensibles IP. Acheter un Mac Studio Ultra : CapEx eleve et cycles de mise a niveau figes. Forcer ds4 sur GPU Linux generiques : optimisations Metal inutilisees, topologie MoE differente. Louer 128 Go / 512 Go chez KVMNODE a l'heure ou au mois transforme l'inference locale haut de gamme de ds4 en OpEx commutable : Metal reel, partage equipe, donnees sur instance dediee — ideal pour valider avant achat materiel.

Les equipes qui cumulent CI iOS, passerelle OpenClaw et ds4 doivent scinder les pools physiquement ou logiquement. Tarifs : page tarifs, commande : page commander, runbooks : centre d'aide.

Retour au blog Louer maintenant