ds4-server на облачных Mac KVMNODE 128 / 512 ГБ и подключить Cursor / opencode. См. также память и диск под Xcode CI, постоянный OpenClaw, шесть регионов.
Что такое ds4: ставка автора Redis на «одну модель, максимум глубины» для DeepSeek V4
Salvatore Sanfilippo (antirez) — автор Redis — в 2026 году открыл ds4 (DwarfStar 4): локальный движок только для DeepSeek V4 Flash / PRO, на чистом C, без обёртки llama.cpp и без рынка «любой GGUF». README прямолинеен: цель — «на топовой личной машине или Mac Studio локальный инференс должен заменить ежедневные вызовы Claude / GPT», с официальной проверкой векторов, длинным контекстом и интеграцией coding agent.
За несколько дней репозиторий на GitHub превысил 11 000 Star; Hacker News и обзоры сходятся: MoE ~284B впервые на MacBook офлайн проходит tool calling и контекст порядка 100k token. Это другой нарратив, чем «игрушечные 7B» 2025 года — ds4 сдвигает дискуссию с «запускается» на «можно писать прод-код». Для клиентов KVMNODE всплеск означает резкий рост спроса на Mac с большой памятью; большинство упирается в стену памяти из следующего раздела.
Узко и глубоко: только DeepSeek V4 — единая оптимизация графа Metal, формата KV и Tool Calling.
Самодостаточность: загрузка, рендер prompt, дисковый KV, ds4-server, встроенный coding agent — один репозиторий.
Проверка сообществом: публичные бенчмарки и сторонние 18 задач — в части сценариев меньше вкладок с облачными моделями.
Не мультитенант: запросы серийно, без batch serving — workflow одного человека или малой команды.
Пересечение с KVMNODE: облачный Mac даёт нужный класс unified memory без покупки Mac Studio Ultra.
Комплаенс: веса скачиваете сами по лицензии DeepSeek и проекта; текст — только про движок и железо.
Технические акценты: Metal в приоритете, миллион token контекста и дисковый KV
Технический сюжет ds4: выжать Apple Silicon и отдать длинные сессии на SSD. Ключевые заявленные возможности:
На MacBook Pro M5 Max ds4 сообщает prefill ~463 token/s, генерацию ~34 token/s (зависит от квантизации и длины контекста) — первый эшелон среди потребительского железа. Поддерживается окно до ~1 млн token и сжатый KV DeepSeek V4, так что «весь репозиторий + длинный чат» — планируемый сценарий, а не демо-цифра.
Персистентный KV на диске — отличие: сессия пишется на SSD, после перезагрузки или смены задачи не нужен полный prefill заново — важно и для ноутбука с ежедневным выключением, и для Agent «продолжить завтра». 2-bit асимметричная квантизация агрессивна только к routing-экспертам; Flash помещается на 128 ГБ. ds4-server отдаёт эндпоинты, совместимые с OpenAI и Anthropic — Cursor, opencode, Claude Code видят локальный инстанс как «частного провайдера модели».
git clone https://github.com/antirez/ds4 cd ds4 && make ./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080
README предупреждает: на macOS CPU-путь инференса может спровоцировать баг виртуальной памяти ядра — в production нужен Metal (или CUDA на Linux). «Сделал make и запустил как попало» должно быть в чек-листе облачного Mac — как health-probe из диагностической лестницы.
Таблица порогов: от Flash q2 на 96 ГБ до PRO на 512 ГБ
Каким бы ни был ds4, unified memory не обойти. Таблица сводит README, отчёты сообщества и ориентиры рынка (рубли/доллары — порядок величины, зависят от конфигурации и курса) для бюджета и решения об аренде — чтобы разделить цену «запустится» и «будет комфортно».
| Модель / квантизация | Мин. unified memory | Типичное железо | Ориентир цены нового | Облачная аренда |
|---|---|---|---|---|
| V4 Flash q2 | 96 GB | MacBook Pro M3/M4/M5 Max | от ~2,5 млн ₽ / $2 500+ | облачный Mac 128 ГБ на неделю/месяц |
| V4 Flash q4 | 256 GB | Mac Studio Ultra | от ~5 млн ₽ / $5 000+ | краткий spike Ultra или поэтапная квантизация |
| V4 PRO q2 | 512 GB | Mac Studio M3 Ultra max | от ~9 млн ₽ / $9 000+ | инстанс 512 ГБ под проект, stop после работ |
| Только CI 16–24 ГБ | 16–24 GB | облачные M4 / M4 Pro | ds4 production — нет | Xcode / OpenClaw отдельно, ds4 — другой пул |
ПО доказало: «V4 локально — реально». Мешает цена гигабайта unified memory, а не качество C.
Прагматично для команды: развести пул ds4 и ежедневный iOS CI — 16·256 / 24·512 под сборки и OpenClaw, 128+ ГБ под ds4-server, не забивать на одной машине DerivedData и KV на миллион token. Подробнее — память и диск.
Почему ds4 ставит Metal + Mac первыми: системная связка unified memory и SSD
Metal как основной бэкенд macOS у ds4 — не маркетинг. UMA Apple Silicon даёт CPU, GPU и Neural Engine одну физическую память без разрыва «VRAM 24 ГБ + RAM 64 ГБ» на PC — для инференса единое адресное пространство задаёт потолок весов и KV. Высокая пропускная способность M3/M4/M5 поднимает prefill на потолок потребительского класса.
NVMe macOS и дисковый KV ds4 — вторая связка: длинная сессия не обязана целиком в RAM, блоки контекста восстанавливаются с SSD. В репозитории есть Linux + CUDA (включая оптимизации под DGX Spark), но для разработчика с Mac, который хочет кодить офлайн, Mac с большой памятью — сейчас лучшая потребительская платформа под ds4, как писал antirez на HN.
Наоборот, macOS-ВМ на не-Apple железе или Hackintosh — нарушение лицензии и нестабильный Metal. В облаке нужен настоящий bare metal Apple Silicon, а не «похожий на Mac» VDI — поэтому KVMNODE поставляет выделенные Mac Mini.
Шесть шагов: ds4-server на облачном Mac KVMNODE и Cursor / opencode
Ниже предполагается заказанный облачный Mac с unified memory 128 ГБ+ (регион — под Git и источник весов, см. шесть регионов). Крупные файлы весов кладите в тот же регион, что object storage или зеркало Hugging Face, чтобы срезать трансокеаническую задержку.
Тариф: на странице оформления заказа выберите план от 96 ГБ+; только эксперимент — дневной spike, долгий Agent — месячный baseline (дневной spike).
Первый SSH: Xcode CLT, Homebrew, git; каталоги модели и KV — на локальный SSD, не в iCloud.
Сборка ds4: git clone https://github.com/antirez/ds4 && cd ds4 && make — появятся ./ds4 и ./ds4-server; production-нагрузку не гоняйте по CPU-only.
Веса: по скриптам репозитория — рекомендованные GGUF / веса ds4 для DeepSeek V4 Flash; после SHA — в фиксированный MODEL_PATH.
Сервис: ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080 (внутренняя сеть) или 127.0.0.1 + SSH -L; постоянство — launchd или pm2, по аналогии с постоянным OpenClaw.
Клиент: в Cursor / opencode Base URL http://127.0.0.1:8080/v1 (или туннель); для команды — Tailscale только на инференс, token не в публичную сеть.
Приватность: инференс на выделенном инстансе; диалог и код не уходят принудительно в сторонние API. Лицензия модели и исходящий firewall — ваша зона. Сеть и бэкапы — центр помощи.
Три цифры для отчёта, сравнение альтернатив и вывод про аренду Mac в облаке
Для техобзора и закупки (уточняйте по upstream README): ① 11k+ Star на GitHub в мае 2026; ② на MacBook Pro M5 Max — ~463 t/s prefill, ~34 t/s decode (от квантизации и контекста); ③ production с 96 ГБ unified memory, для длинного Flash — ориентир 128 ГБ.
Альтернативы: только облачные Claude / GPT API — оплата по token, код и длинный контекст уходят в сеть, дорого для IP-чувствительных проектов; свой Mac Studio Ultra — CapEx сотни тысяч и жёсткий цикл апгрейда; «голый» Linux GPU — без оптимизаций Metal ds4, другая топология памяти под MoE. Аренда облачных Mac KVMNODE 128 / 512 ГБ по часам или месяцам превращает «топовый локальный инференс» ds4 в OpEx по проекту: реальный Metal, данные на выделенном инстансе — удобно проверить до покупки железа.
Если параллельно идут iOS CI, OpenClaw Gateway и ds4 — разделите пулы физически или логически, не смешивайте 16 ГБ сборщик и 128 ГБ инференс в одном SKU. Тарифы — цены аренды, заказ — оформить заказ, runbook — центр помощи.