Was ist der Unterschied zwischen openPangu 2.0 Flash und Pro?

Flash: 92B Gesamtparameter, 6B aktiv, seit 30. Juni verfuegbar. Pro: 505B Gesamt, 18B aktiv, geplant fuer Juli. Beide unterstuetzen 512K Kontext, Training vollstaendig auf Ascend 910B.

Wurde openPangu 2.0 wirklich ohne NVIDIA-GPUs trainiert?

Ja. Das gesamte Training lief auf Huawei Ascend 910B NPUs ohne A100 oder H100. Es ist das weltweit erste frontier Open-Weights-Modell, das auf Nicht-NVIDIA-Hardware in dieser Groessenordnung trainiert und veroeffentlicht wurde.

openPangu 2.0 oder DeepSeek V4 Pro — was passt besser?

Code-Generierung und komplexes Reasoning: DeepSeek V4 Pro (~200B aktive Parameter). Ultra-lange Dokumente (>256K Token), Compliance-Anforderungen und Ascend-Deployment: openPangu 2.0 Pro (512K Kontext, native Ascend-Optimierung, Full-Stack-Open-Source).

Wo kann ich openPangu 2.0 Gewichte herunterladen?

Flash-Gewichte und Inferenz-Code sind auf GitCode Ascend Tribe verfuegbar: gitcode.com/org/ascend-tribe/repos. Alternativ ModelArts AI Gallery abonnieren und per API ohne eigene Hardware nutzen.

Welche Hardware brauche ich fuer openPangu 2.0 Flash?

Empfohlen: eine Ascend 910B-Karte (~96 GB Unified Memory). Flash-Int8-Quantisierung: ~48 GB, 40 Prozent weniger Speicher, Genauigkeitsverlust unter 10 Prozent.

Welche Laufzeitumgebung braucht ein Agent mit openPangu API?

Cursor, OpenClaw und aehnliche Agent-Hosts brauchen macOS 7x24 fuer mehrere API-Keys und Webhooks. KVMNODE dedizierte Mac Mini skalieren tag-, wochen- oder monatsweise — Details auf der Preisseite.

Huawei openPangu 2.0 Open Source: 505B MoE, 512K Kontext, Ascend Full-Stack

Fuer Entwickler und technische Entscheider mit Fokus auf openPangu 2.0 Open Source, Ascend-LLMs und Compliance/Souveraenitaet: Am 30. Juni 2026 setzte Huawei die HDC-2026-Zusage um — openPangu-2.0-Flash Gewichte und Inferenz-Code sind auf GitCode live. Dieser Artikel basiert auf offiziellen Veroeffentlichungen und deckt Timeline und 7 Open-Source-Komponenten, Pro/Flash-Parametervergleich, mHC/Muon/ModAttn-Architektur, Ascend-910B-Full-Stack-Training, Wettbewerbsmatrix vs. DeepSeek/Qwen/Kimi, ModelArts-API und GitCode-Self-Deploy in sechs Schritten sowie strategische Bedeutung und Open-Source-Roadmap ab.

HDC 2026 und openPangu 2.0 Kerndaten: Timeline, Dual-Versionen und 7 Komponenten

Am 12. Juni 2026 eroeffnete die Huawei Developer Conference HDC 2026 in Dongguan Songshan Lake; Richard Yu stellte in der Keynote openPangu 2.0 vor. Am 30. Juni gingen openPangu-2.0-Flash Modellgewichte, Basis-Inferenz-Code und Trainings-/Inferenz-Operatoren als Open Source auf GitCode online — nicht nur ein weiteres Open-Weights-Modell, sondern das weltweit erste frontier Open-Source-LLM, das vollstaendig ohne NVIDIA-Hardware trainiert wurde, und eines der wenigen ultra-grossen MoE-Modelle mit echter Full-Stack-Offenlegung.

Datum	Ereignis
2026-06-12	HDC 2026 Keynote: offizielle Veroeffentlichung openPangu 2.0
2026-06-30	Flash-Gewichte, Inferenz-Code, Operatoren auf GitCode ✅
2026-07 (geplant)	Pro-Gewichte und Inferenz-Code 🔜
H2 2026 (geplant)	Pre-Training-Code, Post-Training-Code, weitere Operatoren 📋

Zwei Versionen, einheitlich 512K Ultra-Long-Context:

Version	Gesamtparameter	Aktive Parameter	Sparsity	Kontext	Status
openPangu 2.0 Pro	505B	18B	~28:1	512K	Geplant Juli
openPangu 2.0 Flash	92B	6B	~15:1	512K	Live 30.6.

512K Kontext entspricht etwa 8 Baenden «The Three-Body Problem» (Band 1) — vollstaendige Vertraege, grosse Codebasen oder lange Dialoghistorien passen in einen Durchlauf.

Geplante 7 Open-Source-Komponenten:

Modellarchitektur (Strukturdefinition) — ✅ 30.6. veroeffentlicht

Modellgewichte (Flash 30.6. live, Pro Juli geplant)

Technical Report (mit Gewichten synchron) — ✅

Inferenz-Code + Trainings-/Inferenz-Operatoren — ✅ 30.6.

Pre-Training-Code (H2, branchenweit selten)

Die ersten vier Punkte sind branchenueblich; die letzten drei (Pre-/Post-Training-Code + Ascend-Trainingsoperatoren) sind bei MoE-Modellen dieser Groesse ausserordentlich selten — echte Full-Stack-Open-Source.

Post-Training-Code (SFT/RLHF, Veroeffentlichung H2)

Trainingsoperatoren (Ascend-HPC-Custom-Ops, H2)

Nur Benchmarks, Open-Source-Tiefe ignorieren: Die meisten Modelle geben nur Gewichte + Inferenz frei — Training nicht reproduzierbar.

Flash- und Pro-Timeline verwechseln: Flash ab 30.6. nutzbar, Pro-Gewichte erst im Juli.

Hardware-Compliance unterschaetzen: NVIDIA-optimierte Modelle auf Ascend erzwingen — Durchsatz und Kosten leiden; fuer EU-Teams relevant unter DSGVO und Souveraenitaetsanforderungen.

512K-Szenarien unterschaetzen: 128K-Wettbewerber schlucken keine vollstaendige Codebasis oder Vertragswerke.

Agent-Host offline: API laeuft, Laptop zu — HarmonyOS-/OpenClaw-Pipelines brechen trotzdem ab.

openPangu 2.0 Technik: MoE-Innovation, Ascend-Full-Stack-Training und Quantisierung

openPangu 2.0 nutzt MoE (Mixture of Experts) mit diesen Schluesseltechnologien:

Technologie	Funktion
mHC-Routing (Multi-Head Combinatorial)	Effizienteres Experten-Routing, weniger Lastungleichgewicht
Muon-Optimierer	Microsofts Second-Order-Momentum-Ansatz, stabilere Gross-Scale-Trainings
ModAttn (Modular Attention)	Modulare Attention fuer 512K Long-Context
DSA+SWA Ultra-Sparse Attention (Flash exklusiv)	Extreme Sparsity, deutlich geringerer Inferenz-Compute

Weltweit erstes «ohne NVIDIA» frontier Training: Vollstaendig auf Huawei Ascend 910B NPU, ohne A100 oder H100. Angesichts weiter verschärfter US-Exportkontrollen fuer High-End-AI-Chips hat Huawei nicht nur ein 505B-MoE-Modell trainiert, sondern auch:

Single-Card-Durchsatz das 2-fache gaengiger Open-Source-Modelle (Ascend-affine Architektur)

Super-Node-Trainingseffizienz +30 %

512K-Long-Sequence-Training-Durchsatz +50 %

Train-Infer-Konsistenz >99 % (klassisches MoE-Problem, hoher Engineering-Wert)

Edge-30B-Modell: Inferenz +50 % schneller, −20 % Speicher, Offline auf Kirin-Smartphones

Developer-Stack: Software auf CANN (Huawei, CUDA-aehnlich) + torch_npu (PyTorch-Adapter). Standard-PyTorch-Code wechselt per import torch_npu auf Ascend. Deployment: Huawei Cloud ModelArts API, GitCode Ascend Tribe Self-Host, HarmonyOS Edge.

Flash-Int8-Quantisierung mit W4A8: −40 % Speicher, Genauigkeitsverlust <10 %.

Python

import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)

openPangu 2.0 vs. DeepSeek, Qwen, Kimi: Wettbewerbsmatrix und Szenario-Entscheidung

Modell	Gesamtparameter	Aktive Parameter	Kontext	Trainings-HW	Open-Source-Tiefe
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	Full-Stack (7 Komponenten)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	Full-Stack (7 Komponenten)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	Gewichte + Inferenz
Qwen 3.7 Max	~400B+	variiert	128K	NVIDIA	Gewichte + Inferenz + Teile Training
Kimi K2.7	1T	32B	256K	NVIDIA	Gewichte + Inferenz
Llama 4 405B	405B	—	128K	NVIDIA	Gewichte + Inferenz

Capability-Matrix (architekturbasierte Einschaetzung; unabhaengige Benchmarks laufen noch):

Dimension	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code-Generierung	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Komplexes Reasoning	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Tool-Use / Agent	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Ultra-Long-Context	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Inferenz-Effizienz	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐
Souveraenitaet / Compliance	⭐⭐⭐⭐⭐	⭐	⭐	⭐
Full-Stack Open Source	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

Szenario	Empfehlung	Begruendung
Code / komplexes Reasoning	DeepSeek V4 Pro	200B aktive Parameter, Spitzenleistung
Agent / Multi-Tool	Kimi K2.7	Staerkstes MCP-Oekosystem
Ultra-lange Dokumente (>256K Token)	openPangu 2.0 Pro	512K Kontext first choice
Domestic / Compliance (inkl. DSGVO-Kontext)	openPangu 2.0	Einziges frontier Modell rein auf domestic HW trainiert
Ascend / Huawei Cloud	openPangu 2.0	Native Optimierung, 2× Durchsatz
Edge / Smartphone	openPangu Embedded (30B)	Kirin lokal
Guenstige lokale Inferenz	openPangu 2.0 Flash	6B aktiv, ~96 GB ausreichend

openPangu 2.0 ist derzeit nicht das staerkste Allround-Open-Source-LLM (Code/Reasoning: DeepSeek V4 Pro klar vorn), aber in 512K Ultra-Context, Souveraenitaet/Compliance, Ascend-nativ 2× Durchsatz, Full-Stack Open Source und Edge-Deployment nahezu unschlagbar.

openPangu 2.0 nutzen: ModelArts API und GitCode Self-Deploy in sechs Schritten

Huawei-Cloud-Konto, ModelArts → AI Gallery → «openPangu 2.0» suchen, Flash oder Pro abonnieren, API-Endpoint erhalten (schnellster Einstieg, keine Hardware).

API-Aufruf: Standard Chat Completions POST, Modell-ID openpangu-2.0-flash.

Gewichte von GitCode: gitcode.com/org/ascend-tribe, Repos openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op klonen.

Flash Single-Card-Inferenz (Ascend 910B): python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

Pro Multi-Card-Distributed-Inferenz (nach Pro-Gewichten im Juli): python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

Domain-Finetuning (LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16 (vollstaendiges Re-Pre-Training nach H2-Code-Release moeglich).

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Hallo"}],"max_tokens":1024,"temperature":0.7}'

Version	Empfohlene HW	Minimum	Hinweis
Flash (6B aktiv)	Single Ascend 910B	~96 GB Unified Memory	Community-Tests auf grossen RAM-Systemen moeglich
Flash-Int8	Single Ascend Atlas A2	~48 GB VRAM	W4A8, Genauigkeitsverlust <10 %
Pro (18B aktiv)	4+ Ascend 910B	Multi-Card-Cluster	Verifikation nach Pro-Release im Juli

Strategische Bedeutung, openPangu License und Open-Source-Roadmap

Geopolitik und historische Bedeutung: openPangu 2.0 ist das weltweit erste frontier Open-Source-LLM ohne NVIDIA-Training. Richard Yu auf der HDC 2026: «In meinem restlichen Leben gibt es kein Zweites, nur Erstes.» Full-Stack-Open-Source unterstuetzt Forschung (Training reproduzieren), Branchenanpassung (Vertical Re-Pre-Training) und Ascend-Oekosystem — relevant auch fuer Teams mit DSGVO- und Souveraenitaetsanforderungen bei Modell- und Datenherkunft.

HarmonyOS-Agent-Basis: HarmonyOS 7 geht voll in die Agent-Aera; openPangu 2.0 ist native AI-Engine fuer Agent-Tasks; HarmonyOS Agent Framework 2.0: >90 % Erfolg bei komplexen Tasks; Edge-30B laeuft lokal auf Smartphones ohne Netz.

openPangu License: Kommerzielle Nutzung erlaubt, lizenzgebuehrenfrei, nicht-exklusiv; Details in GitCode-Repos.

Open-Source-Roadmap:

Zeit	Inhalt
2026-06-30 ✅	Flash-Gewichte + Inferenz-Code + Operatoren
2026-07 🔜	Pro-Gewichte + Inferenz-Code
H2 2026 📋	Pre-/Post-Training-Code, weitere Operatoren, Data-Tools

505B / 18B aktiv / 512K: Pro unter den laengsten Kontextfenstern aktuell veroeffentlichter Open-Modelle.

92B / 6B aktiv / ~15:1 Sparsity: Flash fast so schnell wie 6B-Dense, Wissensbasis 92B.

Train-Infer-Konsistenz >99 %: Seltene Engineering-Kennzahl bei MoE.

Hinweis: Teile der Benchmark-Einschaetzungen basieren auf Architektur-Inferenz; unabhaengige Tests werden nach Veroeffentlichung ergaenzt. Stand 2026-07-01. Quellen: GitCode Ascend Tribe, Huawei Developer, HDC-2026-Ankuendigung.

Reine API-Aufrufe ersetzen keinen Agent-Produktions-Host: Laptop zu, Multi-Key-Chaos, HarmonyOS-/OpenClaw-Pipelines brauchen dauerhaftes macOS — lokales Debug und Cloud-API haben versteckte Kosten. Fuer 7×24 stabile Multi-Modell-Agenten mit ModelArts und OpenRouter-Routing ist KVMNODE dedizierter Cloud Mac Mini oft die bessere Wahl: native Apple-Silicon-Toolchain, flexible Laufzeiten, DSGVO-konforme Hosting-Optionen. Details: Mietpreise, Hilfezentrum, Bestellung: Bestellen.

Zurueck zum Blog Jetzt mieten