openPangu 2.0 Flash와 Pro의 차이는 무엇인가요?

Flash는 총 92B·활성 6B 파라미터로 6월 30일 공개되었습니다. Pro는 총 505B·활성 18B로 7월 공개 예정입니다. 둘 다 512K 컨텍스트를 지원하며 학습은 昇腾 910B에서만 완료되었습니다.

openPangu 2.0은 정말 NVIDIA GPU 없이 학습되었나요?

예. 전체 학습은 화웨이 昇腾 910B NPU에서 수행되었으며 A100·H100은 사용하지 않았습니다. 비 NVIDIA 하드웨어에서 프론티어 규모 학습을 완료하고 오픈소스화한 최초의 대규모 모델입니다.

openPangu 2.0과 DeepSeek V4 Pro 중 어떻게 선택하나요?

코드 생성·복잡 추론은 DeepSeek V4 Pro(활성 약 200B)를 우선하세요. 256K Token 초과 초장문, 자주 AI 컴플라이언스, 昇腾 네이티브 배포에는 openPangu 2.0 Pro(512K, 풀스택 OSS)가 적합합니다.

openPangu 2.0 가중치는 어디서 받나요?

Flash 가중치와 추론 코드는 GitCode Ascend Tribe(gitcode.com/org/ascend-tribe/repos)에서 공개 중입니다. Huawei Cloud ModelArts AI Gallery API 구독으로 하드웨어 없이도 호출할 수 있습니다.

openPangu 2.0 Flash 실행에 필요한 하드웨어는?

단일 昇腾 910B(통합 메모리 약 96GB)를 권장합니다. Flash-Int8 양자화 빌드는 약 48GB에서 동작하며 메모리 40% 절감, 정확도 손실 10% 미만입니다.

openPangu API를 통합한 Agent에 필요한 실행 환경은?

Cursor, OpenClaw 등 Agent 호스트는 다중 API Key와 webhook을 관리할 7×24 macOS 런타임이 필요합니다. KVMNODE 전용 Mac Mini는 일/주/월 단위로 배포 가능합니다.

화웨이 openPangu 2.0 오픈소스 공개: 505B MoE·512K 컨텍스트·昇腾 풀스택

openPangu 2.0, 昇腾 대규모 모델, 자주 AI 컴플라이언스에 관심 있는 개발자·기술 의사결정자를 위해: 2026년 6월 30일 화웨이는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 가중치와 추론 코드를 GitCode에 공개했습니다. 본문은 공식 발표를 바탕으로 타임라인과 7대 오픈 컴포넌트, Pro/Flash 파라미터 비교, mHC/Muon/ModAttn 기술 아키텍처, 昇腾 910B 풀스택 학습, DeepSeek/Qwen/Kimi 경쟁 매트릭스, ModelArts API와 GitCode 자체 배포 6단계, 전략적 의미와 OSS 로드맵을 다룹니다.

HDC 2026 발표와 openPangu 2.0 핵심: 타임라인, 듀얼 버전, 7대 컴포넌트

2026년 6월 12일 화웨이 개발자 대회 HDC 2026이 동관 쑹산호에서 열렸고, 위청동의 기조연설에서 openPangu 2.0이 공식 공개되었습니다. 6월 30일 openPangu-2.0-Flash 모델 가중치, 기본 추론 코드, 학습·추론 연산자가 GitCode에 오픈소스로 공개되었습니다. 이는 단순한 OSS 모델 추가가 아니라 비 NVIDIA 하드웨어에서 프론티어 규모 학습을 완료한 최초의 OSS 대규모 모델이며, 진정한 풀스택 OSS를 실현한 초대형 MoE 모델 중 하나입니다.

일자	이벤트
2026-06-12	HDC 2026 기조연설에서 openPangu 2.0 공식 발표
2026-06-30	Flash 가중치·추론 코드·학습 연산자 GitCode 공개(공개 완료)
2026-07(예정)	Pro 가중치와 추론 코드 공개
2026 하반기(예정)	사전 학습 코드, 사후 학습 코드, 추가 학습 연산자

두 버전, 공통 512K 초장 컨텍스트:

버전	총 파라미터	활성 파라미터	희소 비율	컨텍스트	상태
openPangu 2.0 Pro	505B	18B	~28:1	512K	7월 공개 예정
openPangu 2.0 Flash	92B	6B	~15:1	512K	6/30 공개 완료

512K 컨텍스트는 장편 소설 8권 분량의 텍스트를 한 번에 처리할 수 있는 규모입니다. 계약서 전문, 대규모 코드베이스, 장시간 대화 기록을 청크 분할 없이 투입할 수 있습니다.

공개 예정 7대 컴포넌트:

모델 구조(아키텍처 정의) — 6/30 공개 완료

모델 가중치(Flash 6/30 공개, Pro 7월 예정)

기술 보고서(가중치와 동시 공개) — 공개 완료

추론 코드 + 학습·추론 연산자 — 6/30 공개 완료

사전 학습 코드(하반기 공개, 동 규모에서 극히 드묾)

처음 4항목은 OSS의 일반적 범위입니다. 나머지 3항목(사전·사후 학습 코드 + 昇腾 학습 연산자)은 500B+ MoE에서 거의 전례가 없으며, 가중치만 공개하는 것이 아닌 진정한 풀스택 OSS를 의미합니다.

사후 학습 코드(SFT/RLHF 지원, 하반기 공개)

학습 연산자(昇腾 최적화 커스텀 커널, 하반기 공개)

벤치마크만 보고 OSS 깊이를 경시: 대부분 모델은 가중치+추론만 공개해 학습 파이프라인을 재현할 수 없습니다.

Flash와 Pro 공개 시기 혼동: Flash는 6/30부터 이용 가능, Pro 가중치는 7월까지 대기해야 합니다.

하드웨어 제약 무시: 昇腾 환경에서 NVIDIA 최적화 모델을 억지로 돌리면 처리량과 비용 모두 손해입니다.

512K 가치 과소평가: 128K 경쟁 모델은 코드베이스나 법무 계약을 한 번에 삼킬 수 없습니다.

Agent 호스트 오프라인: API는 가동 중이어도 노트북 덮개를 닫으면 HarmonyOS/OpenClaw 파이프라인이 중단됩니다.

openPangu 2.0 기술 심층: MoE 아키텍처 혁신, 昇腾 풀스택 학습, 양자화 버전

openPangu 2.0은 MoE(Mixture of Experts) 아키텍처를 채택합니다. 핵심 기술 요소:

기술	역할
mHC 라우팅(Multi-Head Combinatorial)	전문가 라우팅 효율 개선, 부하 불균형 감소
Muon 옵티마이저	Microsoft 2차 모멘텀 방식, 대규모 학습 안정성 향상
ModAttn(Modular Attention)	모듈형 Attention, 512K 초장 시퀀스에 최적화
DSA+SWA 초희소 Attention(Flash 전용)	극단적 희소 비율로 추론 연산량 대폭 절감

NVIDIA GPU 없이 완료한 프론티어 학습: 전체 학습은 화웨이 昇腾 910B NPU에서 수행되었으며 A100·H100은 사용하지 않았습니다. 미국의 대중 선단 AI 칩 수출 규제 강화 속에서 화웨이는 505B MoE 모델 학습 외에도 다음을 달성했습니다:

단일 카드 처리량이 주류 OSS 모델의 2배(昇腾 네이티브 아키텍처)

슈퍼노드 학습 효율 +30% 향상

512K 장시퀀스 학습 처리량 +50% 향상

학습-추론 일치율 >99%(MoE 모델의 오랜 난제, 극히 높은 가치)

단말 30B 임베디드 모델: 추론 50% 가속, 메모리 20% 절감, Kirin 스마트폰 오프라인 실행

개발자 스택: CANN(화웨이 자체 개발, CUDA급) + torch_npu(PyTorch 어댑터) 위에 구축됩니다. 표준 PyTorch 코드는 import torch_npu로 昇腾 백엔드에 전환할 수 있습니다. 배포 경로: Huawei Cloud ModelArts API, GitCode Ascend Tribe 자체 호스팅, HarmonyOS 네이티브 단말 통합.

Flash-Int8 양자화 빌드가 공개되어 W4A8 양자화로 메모리 사용량 40% 절감, 정확도 손실 10% 미만입니다.

Python

import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)

openPangu 2.0 vs DeepSeek·Qwen·Kimi: 경쟁 비교와 선택 가이드

모델	총 파라미터	활성 파라미터	컨텍스트	학습 HW	OSS 깊이
openPangu 2.0 Pro	505B	18B	512K	昇腾 NPU	풀스택(7 컴포넌트)
openPangu 2.0 Flash	92B	6B	512K	昇腾 NPU	풀스택(7 컴포넌트)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	가중치+추론
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	가중치+추론+일부 학습
Kimi K2.7	1T	32B	256K	NVIDIA	가중치+추론
Llama 4 405B	405B	—	128K	NVIDIA	가중치+추론

역량 매트릭스(아키텍처 기반 추정. 독립 제3자 벤치마크는 평가 중):

역량 축	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
코드 생성	양호	최상급	매우 양호	매우 양호
복잡 추론	양호	최상급	최상급	매우 양호
도구 호출/Agent	매우 양호	매우 양호	매우 양호	최상급
초장 컨텍스트	최상급(512K)	보통	보통	양호
추론 효율	최상급(昇腾 2배)	보통	보통	양호
자주 AI/공급망 통제	최상급	제한적	제한적	제한적
풀스택 OSS	최상급	부분적	부분적	부분적

시나리오	추천	이유
코드 생성 / 복잡 추론	DeepSeek V4 Pro	활성 200B, 현재 성능 리더
Agent / 멀티툴 오케스트레이션	Kimi K2.7	MCP 생태계가 가장 성숙
초장문(>256K Token)	openPangu 2.0 Pro	512K 컨텍스트가 최적
자주 AI / 컴플라이언스	openPangu 2.0	비 NVIDIA 국산 HW로 학습한 유일한 프론티어 모델
昇腾 / Huawei Cloud 환경	openPangu 2.0	네이티브 최적화, 2배 처리량
단말 / 모바일 배포	openPangu Embedded(30B)	Kirin 칩 로컬 추론
저비용 로컬 추론	openPangu 2.0 Flash	활성 6B, 약 96GB에서 실행

openPangu 2.0은 현재 종합 역량이 가장 강한 OSS 대규모 모델은 아닙니다(코드·복잡 추론에서 DeepSeek V4 Pro가 우위). 그러나 512K 초장 컨텍스트, 자주 AI 공급망, 昇腾 네이티브 2배 처리량, 풀스택 OSS, 단말 배포 다섯 축에서는 대체가 거의 없습니다.

openPangu 2.0 사용법: ModelArts API와 GitCode 자체 배포 6단계

Huawei Cloud 계정 등록, ModelArts → AI Gallery →「openPangu 2.0」검색, Flash 또는 Pro 구독하여 API 엔드포인트 획득(가장 빠름, 하드웨어 불필요).

API 호출: 표준 Chat Completions 형식으로 POST. 모델 ID는 openpangu-2.0-flash.

GitCode에서 가중치 다운로드: gitcode.com/org/ascend-tribe에서 openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op clone.

Flash 단일 카드 추론(昇腾 910B): python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

Pro 다중 카드 분산 추론(7월 가중치 공개 후): python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

도메인 미세조정(LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16(하반기 사전 학습 코드 공개 후 완전한 2차 사전 학습 가능).

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"안녕하세요"}],"max_tokens":1024,"temperature":0.7}'

버전	권장 HW	최소 구성	비고
Flash(활성 6B)	단일 昇腾 910B	~96GB 통합 메모리	대용량 메모리 시스템에서 커뮤니티 검증
Flash-Int8	단일 昇腾 Atlas A2	~48GB 메모리	W4A8 양자화, 정확도 손실 <10%
Pro(활성 18B)	4장 이상 昇腾 910B	다중 카드 클러스터	7월 가중치 공개 후 검증

전략적 의미, openPangu License, OSS 로드맵: 인용 가능한 하드 데이터

지정학적·역사적 의미: openPangu 2.0은 비 NVIDIA 하드웨어에서 프론티어 규모 학습을 완료한 최초의 OSS 대규모 모델입니다. HDC 2026에서 위청동은「여생의 사전에 두 번째는 없고, 첫 번째만 있다」고 밝혔습니다. 풀스택 OSS는 학술 연구(학습 완전 재현), 산업 맞춤(수직 도메인 2차 사전 학습), 昇腾 생태계 구축에 전략적 가치가 있습니다.

HarmonyOS Agent 기반: HarmonyOS 7은 Agent 시대로 전면 전환하며 openPangu 2.0이 Agent 작업의 네이티브 AI 엔진입니다. HarmonyOS Agent Framework 2.0은 복잡 작업 실행 성공률 >90%. 단말 30B 모델은 스마트폰에서 네트워크 없이 로컬 LLM 실행을 구현합니다.

openPangu License: 상업적 이용 가능, 로열티 프리, 비독점. 상세 조항은 GitCode 저장소를 확인하십시오.

OSS 로드맵:

시기	내용
2026-06-30(공개 완료)	Flash 가중치 + 추론 코드 + 학습 연산자
2026-07(예정)	Pro 가중치 + 추론 코드
2026 하반기(예정)	사전 학습 코드, 사후 학습 코드, 추가 연산자, 데이터 처리 도구

505B / 활성 18B / 512K: Pro 버전은 현행 OSS 모델 중 최장급 컨텍스트 클래스.

92B / 활성 6B / ~15:1 희소: Flash는 6B 밀집 모델에 가까운 속도로 92B 지식 용량 유지.

학습-추론 일치율 >99%: MoE 분야에서 극히 가치 높은 엔지니어링 지표.

주의: 본문 일부 역량 평가는 아키텍처 기반 추정입니다. 독립 제3자 벤치마크 공개 후 업데이트하겠습니다. 작성일 2026-07-01. 참고: GitCode Ascend Tribe, 화웨이 개발자 포털, HDC 2026 공식 발표.

API 호출만으로는 Agent 프로덕션 호스트를 대체할 수 없습니다. 노트북 덮개를 닫으면 연결 끊김, 다중 Key 관리 혼란, HarmonyOS/OpenClaw 파이프라인에는 macOS 상시 온라인이 필요합니다. 로컬 디버깅과 클라우드 API 각각 숨은 비용이 있습니다. 7×24 다중 모델 Agent 안정 가동과 Huawei Cloud ModelArts·OpenRouter 병행이 필요한 프로덕션 환경에는 KVMNODE 전용 Mac Mini 클라우드 대여가 보통 더 나은 선택입니다. Apple Silicon 네이티브 툴체인, 일/주/월 유연 주문. 자세한 내용 요금 페이지, 주문 주문 페이지.

블로그 목록으로 지금 대여하기