Чем ds4 отличается от llama.cpp и Ollama?

ds4 — не универсальный загрузчик GGUF: только DeepSeek V4 Flash, граф Metal/CUDA, KV на диске и Agent API. Другие модели — llama.cpp/Ollama; для V4 локально и Cursor/opencode — ds4.

Хватит ли Mac с 64 ГБ unified memory для ds4?

В README production-цель — от 96 ГБ. На 64 ГБ трудно загрузить полные веса q2 Flash и длинный KV. Арендуйте облачный Mac 128 ГБ или возьмите 24 ГБ·512 / M4 Pro 64 ГБ под CI — см. страницу цен.

Проходят ли веса и диалоги через публичный API KVMNODE при ds4 в облаке?

Инференс на вашем выделенном инстансе, ds4-server слушает локально; принудительного выхода в сторонние LLM API нет. Заказ и сеть — в центре помощи и на странице оформления заказа.

2026: DeepSeek V4 локально? antirez, ds4 и аренда Mac в облаке — путь инференса при пороге 96 ГБ

Разработчикам и пользователям AI Agent, которые хотят гонять DeepSeek V4-класс локально и следят за новым open-source ds4 (DwarfStar) от antirez, в мае 2026 вопрос уже не «заведётся ли», а счёт за unified memory: от 96 ГБ, Flash q4 — 256 ГБ, PRO — 512 ГБ. В статье — почему ds4 за неделю набрал 10k+ Star на GitHub, выбор Metal и дискового KV, таблица порогов памяти и почему Apple Silicon — лучший потребительский путь для локального инференса больших моделей; шесть шагов поднять ds4-server на облачных Mac KVMNODE 128 / 512 ГБ и подключить Cursor / opencode. См. также память и диск под Xcode CI, постоянный OpenClaw, шесть регионов.

Что такое ds4: ставка автора Redis на «одну модель, максимум глубины» для DeepSeek V4

Salvatore Sanfilippo (antirez) — автор Redis — в 2026 году открыл ds4 (DwarfStar 4): локальный движок только для DeepSeek V4 Flash / PRO, на чистом C, без обёртки llama.cpp и без рынка «любой GGUF». README прямолинеен: цель — «на топовой личной машине или Mac Studio локальный инференс должен заменить ежедневные вызовы Claude / GPT», с официальной проверкой векторов, длинным контекстом и интеграцией coding agent.

За несколько дней репозиторий на GitHub превысил 11 000 Star; Hacker News и обзоры сходятся: MoE ~284B впервые на MacBook офлайн проходит tool calling и контекст порядка 100k token. Это другой нарратив, чем «игрушечные 7B» 2025 года — ds4 сдвигает дискуссию с «запускается» на «можно писать прод-код». Для клиентов KVMNODE всплеск означает резкий рост спроса на Mac с большой памятью; большинство упирается в стену памяти из следующего раздела.

Узко и глубоко: только DeepSeek V4 — единая оптимизация графа Metal, формата KV и Tool Calling.

Самодостаточность: загрузка, рендер prompt, дисковый KV, ds4-server, встроенный coding agent — один репозиторий.

Проверка сообществом: публичные бенчмарки и сторонние 18 задач — в части сценариев меньше вкладок с облачными моделями.

Не мультитенант: запросы серийно, без batch serving — workflow одного человека или малой команды.

Пересечение с KVMNODE: облачный Mac даёт нужный класс unified memory без покупки Mac Studio Ultra.

Комплаенс: веса скачиваете сами по лицензии DeepSeek и проекта; текст — только про движок и железо.

Технические акценты: Metal в приоритете, миллион token контекста и дисковый KV

Технический сюжет ds4: выжать Apple Silicon и отдать длинные сессии на SSD. Ключевые заявленные возможности:

На MacBook Pro M5 Max ds4 сообщает prefill ~463 token/s, генерацию ~34 token/s (зависит от квантизации и длины контекста) — первый эшелон среди потребительского железа. Поддерживается окно до ~1 млн token и сжатый KV DeepSeek V4, так что «весь репозиторий + длинный чат» — планируемый сценарий, а не демо-цифра.

Персистентный KV на диске — отличие: сессия пишется на SSD, после перезагрузки или смены задачи не нужен полный prefill заново — важно и для ноутбука с ежедневным выключением, и для Agent «продолжить завтра». 2-bit асимметричная квантизация агрессивна только к routing-экспертам; Flash помещается на 128 ГБ. ds4-server отдаёт эндпоинты, совместимые с OpenAI и Anthropic — Cursor, opencode, Claude Code видят локальный инстанс как «частного провайдера модели».

shell

git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README предупреждает: на macOS CPU-путь инференса может спровоцировать баг виртуальной памяти ядра — в production нужен Metal (или CUDA на Linux). «Сделал make и запустил как попало» должно быть в чек-листе облачного Mac — как health-probe из диагностической лестницы.

Таблица порогов: от Flash q2 на 96 ГБ до PRO на 512 ГБ

Каким бы ни был ds4, unified memory не обойти. Таблица сводит README, отчёты сообщества и ориентиры рынка (рубли/доллары — порядок величины, зависят от конфигурации и курса) для бюджета и решения об аренде — чтобы разделить цену «запустится» и «будет комфортно».

Модель / квантизация	Мин. unified memory	Типичное железо	Ориентир цены нового	Облачная аренда
V4 Flash q2	96 GB	MacBook Pro M3/M4/M5 Max	от ~2,5 млн ₽ / $2 500+	облачный Mac 128 ГБ на неделю/месяц
V4 Flash q4	256 GB	Mac Studio Ultra	от ~5 млн ₽ / $5 000+	краткий spike Ultra или поэтапная квантизация
V4 PRO q2	512 GB	Mac Studio M3 Ultra max	от ~9 млн ₽ / $9 000+	инстанс 512 ГБ под проект, stop после работ
Только CI 16–24 ГБ	16–24 GB	облачные M4 / M4 Pro	ds4 production — нет	Xcode / OpenClaw отдельно, ds4 — другой пул

ПО доказало: «V4 локально — реально». Мешает цена гигабайта unified memory, а не качество C.

Прагматично для команды: развести пул ds4 и ежедневный iOS CI — 16·256 / 24·512 под сборки и OpenClaw, 128+ ГБ под ds4-server, не забивать на одной машине DerivedData и KV на миллион token. Подробнее — память и диск.

Почему ds4 ставит Metal + Mac первыми: системная связка unified memory и SSD

Metal как основной бэкенд macOS у ds4 — не маркетинг. UMA Apple Silicon даёт CPU, GPU и Neural Engine одну физическую память без разрыва «VRAM 24 ГБ + RAM 64 ГБ» на PC — для инференса единое адресное пространство задаёт потолок весов и KV. Высокая пропускная способность M3/M4/M5 поднимает prefill на потолок потребительского класса.

NVMe macOS и дисковый KV ds4 — вторая связка: длинная сессия не обязана целиком в RAM, блоки контекста восстанавливаются с SSD. В репозитории есть Linux + CUDA (включая оптимизации под DGX Spark), но для разработчика с Mac, который хочет кодить офлайн, Mac с большой памятью — сейчас лучшая потребительская платформа под ds4, как писал antirez на HN.

Наоборот, macOS-ВМ на не-Apple железе или Hackintosh — нарушение лицензии и нестабильный Metal. В облаке нужен настоящий bare metal Apple Silicon, а не «похожий на Mac» VDI — поэтому KVMNODE поставляет выделенные Mac Mini.

Шесть шагов: ds4-server на облачном Mac KVMNODE и Cursor / opencode

Ниже предполагается заказанный облачный Mac с unified memory 128 ГБ+ (регион — под Git и источник весов, см. шесть регионов). Крупные файлы весов кладите в тот же регион, что object storage или зеркало Hugging Face, чтобы срезать трансокеаническую задержку.

Тариф: на странице оформления заказа выберите план от 96 ГБ+; только эксперимент — дневной spike, долгий Agent — месячный baseline (дневной spike).

Первый SSH: Xcode CLT, Homebrew, git; каталоги модели и KV — на локальный SSD, не в iCloud.

Сборка ds4: git clone https://github.com/antirez/ds4 && cd ds4 && make — появятся ./ds4 и ./ds4-server; production-нагрузку не гоняйте по CPU-only.

Веса: по скриптам репозитория — рекомендованные GGUF / веса ds4 для DeepSeek V4 Flash; после SHA — в фиксированный MODEL_PATH.

Сервис: ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080 (внутренняя сеть) или 127.0.0.1 + SSH -L; постоянство — launchd или pm2, по аналогии с постоянным OpenClaw.

Клиент: в Cursor / opencode Base URL http://127.0.0.1:8080/v1 (или туннель); для команды — Tailscale только на инференс, token не в публичную сеть.

Приватность: инференс на выделенном инстансе; диалог и код не уходят принудительно в сторонние API. Лицензия модели и исходящий firewall — ваша зона. Сеть и бэкапы — центр помощи.

Три цифры для отчёта, сравнение альтернатив и вывод про аренду Mac в облаке

Для техобзора и закупки (уточняйте по upstream README): ① 11k+ Star на GitHub в мае 2026; ② на MacBook Pro M5 Max — ~463 t/s prefill, ~34 t/s decode (от квантизации и контекста); ③ production с 96 ГБ unified memory, для длинного Flash — ориентир 128 ГБ.

Альтернативы: только облачные Claude / GPT API — оплата по token, код и длинный контекст уходят в сеть, дорого для IP-чувствительных проектов; свой Mac Studio Ultra — CapEx сотни тысяч и жёсткий цикл апгрейда; «голый» Linux GPU — без оптимизаций Metal ds4, другая топология памяти под MoE. Аренда облачных Mac KVMNODE 128 / 512 ГБ по часам или месяцам превращает «топовый локальный инференс» ds4 в OpEx по проекту: реальный Metal, данные на выделенном инстансе — удобно проверить до покупки железа.

Если параллельно идут iOS CI, OpenClaw Gateway и ds4 — разделите пулы физически или логически, не смешивайте 16 ГБ сборщик и 128 ГБ инференс в одном SKU. Тарифы — цены аренды, заказ — оформить заказ, runbook — центр помощи.

К списку статей Арендовать