DeepSeek V4급 모델을 로컬에서 돌리고 antirez의 신규 오픈소스 ds4(DwarfStar)에 주목하는 개발자와 AI Agent 사용자에게 2026년 5월의 쟁점은 「돌아가느냐」가 아니라 통합 메모리 96GB부터, Flash q4는 256GB, PRO는 512GB라는 하드웨어 청구서입니다. 본 문서는 ds4가 GitHub에서 일주 만에 Star 1만을 넘긴 이유, Metal과 디스크 KV 기술 선택, 메모리 단계 대조표, Apple Silicon이 대규모 로컬 추론의 소비자급 최적해인 이유를 정리하고, KVMNODE 128GB / 512GB 클라우드 Mac에서 여섯 단계로 ds4-server를 올려 Cursor / opencode에 붙이는 경로를 제시합니다. 스토리지·메모리 선정, OpenClaw 상주, 6개 지역 선정과 함께 읽으시기 바랍니다.
01

ds4란: Redis 저자가 「단일 모델 극치」에 건 DeepSeek V4 엔진

Salvatore Sanfilippo(antirez)——Redis 저자——는 2026년 ds4(DwarfStar 4)를 공개했습니다. 이것은 DeepSeek V4 Flash / PRO 전용 로컬 추론 엔진으로, 순수 C 구현이며 llama.cpp 래퍼도 범용 GGUF 마켓도 아닙니다. README 목표는 「개인 최상위 머신이나 Mac Studio에서 로컬 추론을 일상의 Claude / GPT 호출에 필적하게 만드는 것」이며, 공식 벡터 검증·장컨텍스트 시험·코딩 Agent 통합이 함께 제공됩니다.

공개 며칠 만에 GitHub Star는 11,000+를 돌파했고, Hacker News와 커뮤니티 리뷰는 공통 초점을 갖습니다. 284B급 MoE가 MacBook에서 오프라인 도구 호출과 십만급 컨텍스트를 처음 통과했다는 사실입니다. 2025년 「7B 장난 모델」 서사와는 다른 차원으로, ds4는 논의를 「돌아간다」에서 「프로덕션 코드에 쓴다」로 끌어올렸습니다. KVMNODE 사용자에게 이 열기는 대용량 메모리 Mac 수요의 급경사를 보여 줍니다. 대부분을 막는 것은 다음 절의 메모리 벽입니다.

01

좁고 깊게: DeepSeek V4만 서비스해 Metal 그래프, KV 형식, Tool Calling을 일체 최적화합니다.

02

자급자족: 로드, 프롬프트 렌더, 디스크 KV, ds4-server, 내장 coding agent를 한 저장소에서 유지합니다.

03

커뮤니티 검증: 공개 벤치와 제3자 18과제 시험에서 일부 시나리오는 클라우드 Tab 대조를 줄일 수 있다고 보고됩니다.

04

비멀티테넌트: 현재 요청 직렬, batch serving 없음. 개인·소규모 팀 Agent 워크플로용입니다.

05

KVMNODE 접점: 클라우드 Mac이 ds4가 요구하는 통합 메모리 단을 제공해 Mac Studio Ultra 자가 구매를 피할 수 있습니다.

06

컴플라이언스: 가중치는 DeepSeek·프로젝트 라이선스에 따라 각자 받으십시오. 본문은 엔진과 하드웨어 경로만 다룹니다.

02

기술 하이라이트: Metal 우선, 백만 컨텍스트, 디스크 KV가 별도 절이 되는 이유

ds4 기술 서사는 「Apple Silicon을 끝까지 쓰고, 긴 세션 상태는 SSD에 맡긴다」로 요약됩니다. 공식·커뮤니티가 드러낸 핵심 역량은 다음과 같습니다.

MacBook Pro M5 Max에서 ds4는 prefill 약 463 token/s, 생성 약 34 token/s(양자화·컨텍스트 길이에 따라 변동)를 보고하며, 동급 소비자 하드웨어에서 1티어에 속합니다. 엔진은 최대 약 100만 token 컨텍스트 창을 지원하고, DeepSeek V4 압축 KV 설계와 맞물려 「전체 저장소+장대화」를 로컬에서 계획 가능한 시나리오로 만듭니다.

디스크 KV 영속화는 차별점입니다. 세션 KV를 디스크에 써 Mac 고속 SSD로 재부팅·작업 전환 후 prefill 전체 재계산을 피합니다. 매일 전원을 끄는 노트북 사용자와 「다음 날 이어서」 Agent 모두에 유효합니다. 2-bit 비대칭 양자화는 라우팅 전문가만 공격적으로 압축하고 나머지 층은 정밀도를 유지해 Flash가 128GB 머신에서 실행 가능 영역에 들어갑니다. ds4-serverOpenAI·Anthropic 호환 엔드포인트를 노출해 Cursor, opencode, Claude Code가 로컬 인스턴스를 「사설 모델 공급자」로 쓸 수 있습니다.

shell
git clone https://github.com/antirez/ds4
cd ds4 && make
./ds4-server --ctx 100000 --host 127.0.0.1 --port 8080

README는 동시에 경고합니다. macOS에서 CPU 추론 경로가 커널 가상 메모리 결함을 유발할 수 있으므로 프로덕션은 Metal(또는 Linux CUDA)을 써야 합니다. 「make 후 아무렇게나 실행」은 클라우드 Mac 운영 체크리스트에도 넣어야 합니다. 진단 사다리의 헬스 프로브 사상과 맞습니다.

03

하드웨어 문턱 대조표: Flash q2 96GB부터 PRO 512GB 비용

ds4가 아무리 정교해도 통합 메모리 용량은 피할 수 없습니다. 아래 표는 공식 README, 커뮤니티 실측, 공개 시장가의 개략(원·달러는 환율·구성에 따라 변동)을 모은 것으로, 예산·대여 판단용이며 「돌아간다」와 「편하게 돌아간다」를 가격 분리하기 위한 자료입니다.

모델 / 양자화최소 통합 메모리전형 하드웨어신품 참고가(개략)클라우드 대여 대안
V4 Flash q296 GBMacBook Pro M3/M4/M5 Max₩4,000만+ / $2,500+128GB 클라우드 Mac 주·월 검증
V4 Flash q4256 GBMac Studio Ultra₩8,000만+ / $5,000+단기 spike Ultra 단, 단계적 양자화 시험
V4 PRO q2512 GBMac Studio M3 Ultra 최상₩1.5억+ / $9,000+프로젝트 단위 512GB 인스턴스, 종료 후 중지
CI만 16–24GB16–24 GBM4 / M4 Pro 클라우드 노드ds4 프로덕션 비권장Xcode / OpenClaw 계속, ds4는 별 풀

소프트웨어는 「로컬 V4 가능」을 증명했습니다. 막는 것은 통합 메모리 단가이지 C 실력이 아닙니다.

팀에 현실적인 것은 ds4 검증과 일상 iOS CI를 메모리 풀로 나누는 것입니다. 16GB·256 / 24GB·512로 빌드·OpenClaw, 128GB+ 전용 풀에서 ds4-server——한 대에서 DerivedData와 백만 token KV를 동시에 채우지 마십시오. 자세한 내용은 스토리지·메모리 선정을 참고하시기 바랍니다.

04

ds4가 Metal + Mac을 1순위로 두는 이유: 통합 메모리와 SSD의 시스템급 결합

ds4가 Metal을 macOS 1순위 백엔드로 둔 것은 마케팅이 아닙니다. Apple Silicon 통합 메모리 아키텍처(UMA)는 CPU·GPU·Neural Engine이 같은 물리 메모리를 공유해 PC의 「VRAM 24GB + RAM 64GB」 분할을 피합니다. 대규모 추론에서 단일 통합 주소 공간이 실을 수 있는 양자화 가중치와 KV 상한을 직접 정합니다. M3/M4/M5 고대역 메모리는 prefill 처리량을 소비자 하드 상한 근처로 올립니다.

macOS NVMe와 ds4 디스크 KV가 두 번째 결합입니다. 긴 세션을 전부 RAM에 두지 않고 SSD에서 컨텍스트 블록을 복구합니다. 저장소 내 Linux + CUDA 경로(DGX Spark 최적화 포함)도 있으나, 이미 Mac을 갖고 오프라인으로 코드를 쓰는 개발자에게 대용량 Mac은 현 시점 ds4에 가장 맞는 소비자 플랫폼이라는 판단은 antirez의 HN 발언과도 맞습니다.

반대로 비 Apple 하드의 macOS VM이나 해킨토시에서 ds4를 돌리면 라이선스 위반에 Metal 경로 안정성 손실이 따릅니다. 클라우드는 진짜 Apple Silicon 베어메탈을 고르십시오. 「Mac처럼 보이는」VDI가 아닙니다. 이것이 KVMNODE가 Mac Mini 독점 제공을 유지하는 이유 중 하나입니다.

05

여섯 단계: KVMNODE 클라우드 Mac에서 ds4-server 기동 후 Cursor / opencode 연결

아래는 통합 메모리 128GB 이상 클라우드 Mac을 이미 주문했다는 전제입니다(지역은 Git·가중치 다운로드 원에 맞추고 6개 지역 선정 참고). 대용량 파일은 객체 스토리지나 Hugging Face 미러와 동지역에 두어 해저 지연을 줄이십시오.

01

플랜 선택: 주문 페이지에서 96GB+를 충족하는 플랜을 고릅니다. 시험만이면 일 spike, 장기 Agent 상주는 월 기준선(일 spike 문서 참고).

02

SSH 첫 로그인: Xcode CLT, Homebrew, git을 확인합니다. 모델·KV 디렉터리는 로컬 SSD에 두고 iCloud 동기 경로는 피합니다.

03

ds4 빌드: git clone https://github.com/antirez/ds4 && cd ds4 && make./ds4, ./ds4-server 생성. 프로덕션 부하는 CPU-only 경로로 시험하지 마십시오.

04

가중치 받기: 저장소 절차로 DeepSeek V4 Flash 권장 GGUF / ds4 전용 가중치를 받고 SHA 검증 후 고정 MODEL_PATH에 둡니다.

05

서비스 기동: ./ds4-server --ctx 100000 --host 0.0.0.0 --port 8080(사내망) 또는 127.0.0.1 + SSH -L. launchd·pm2로 상주화하고 OpenClaw 상주 데몬 패턴을 빌려 쓸 수 있습니다.

06

클라이언트 연결: Cursor / opencode Base URL을 http://127.0.0.1:8080/v1(또는 터널)로 설정. 팀 공유는 Tailscale로 추론만 노출하고 토큰을 공인망에 두지 마십시오.

프라이버시: 추론은 전용 인스턴스 안에서 끝나며 대화·코드 문맥을 제3자 API로 강제 보내지 않습니다. 모델 라이선스·아웃바운드 방화벽은 각자 책임입니다. 네트워크·백업은 고객 센터를 보시기 바랍니다.

06

인용 가능한 세 수치, 대안 비교, Mac 클라우드 대여 결론

기술 리뷰·조달 문서에 넣을 공개 수치(상류 README 갱신에 따름): ① 2026년 5월 GitHub 11k+ Star; ② MacBook Pro M5 Max 보고 prefill 약 463 t/s, 생성 약 34 t/s(양자화·컨텍스트 의존); ③ 프로덕션 출발 통합 메모리 96GB, Flash 장컨텍스트 안정 단은 128GB.

대안 비교입니다. 클라우드 Claude / GPT API만——token 과금, 코드·장컨텍스트 출망, IP 민감 프로젝트 비용 팽창. Mac Studio Ultra 자가 구매——CapEx 수천만 원대·업그레이드 주기 고정. 일반 Linux 클라우드 GPU——ds4 Metal 최적화 무효, MoE 메모리 토폴로지 상이. KVMNODE에서 128GB / 512GB 클라우드 Mac을 시간·월 단위 대여하면 ds4 「최상위 로컬 추론」을 프로젝트 OpEx로 바꿉니다. Metal 실기·데이터가 전용 인스턴스에 머무는 점은 검증 후 자체 하드 구매 여부를 가리는 팀에 맞습니다.

iOS CI, OpenClaw Gateway, ds4를 병행하는 팀은 물리·논리 풀 분할로 16GB 빌드기와 128GB 추론기를 한 SKU에 섞지 마십시오. 요금은 대여 가격, 절차는 주문 페이지, 운영 템플릿은 고객 센터에서 확인하시기 바랍니다.