HDC 2026 und openPangu 2.0 Kerndaten: Timeline, Dual-Versionen und 7 Komponenten
Am 12. Juni 2026 eroeffnete die Huawei Developer Conference HDC 2026 in Dongguan Songshan Lake; Richard Yu stellte in der Keynote openPangu 2.0 vor. Am 30. Juni gingen openPangu-2.0-Flash Modellgewichte, Basis-Inferenz-Code und Trainings-/Inferenz-Operatoren als Open Source auf GitCode online — nicht nur ein weiteres Open-Weights-Modell, sondern das weltweit erste frontier Open-Source-LLM, das vollstaendig ohne NVIDIA-Hardware trainiert wurde, und eines der wenigen ultra-grossen MoE-Modelle mit echter Full-Stack-Offenlegung.
| Datum | Ereignis |
|---|---|
| 2026-06-12 | HDC 2026 Keynote: offizielle Veroeffentlichung openPangu 2.0 |
| 2026-06-30 | Flash-Gewichte, Inferenz-Code, Operatoren auf GitCode ✅ |
| 2026-07 (geplant) | Pro-Gewichte und Inferenz-Code 🔜 |
| H2 2026 (geplant) | Pre-Training-Code, Post-Training-Code, weitere Operatoren 📋 |
Zwei Versionen, einheitlich 512K Ultra-Long-Context:
| Version | Gesamtparameter | Aktive Parameter | Sparsity | Kontext | Status |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Geplant Juli |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live 30.6. |
512K Kontext entspricht etwa 8 Baenden «The Three-Body Problem» (Band 1) — vollstaendige Vertraege, grosse Codebasen oder lange Dialoghistorien passen in einen Durchlauf.
Geplante 7 Open-Source-Komponenten:
Modellarchitektur (Strukturdefinition) — ✅ 30.6. veroeffentlicht
Modellgewichte (Flash 30.6. live, Pro Juli geplant)
Technical Report (mit Gewichten synchron) — ✅
Inferenz-Code + Trainings-/Inferenz-Operatoren — ✅ 30.6.
Pre-Training-Code (H2, branchenweit selten)
Die ersten vier Punkte sind branchenueblich; die letzten drei (Pre-/Post-Training-Code + Ascend-Trainingsoperatoren) sind bei MoE-Modellen dieser Groesse ausserordentlich selten — echte Full-Stack-Open-Source.
Post-Training-Code (SFT/RLHF, Veroeffentlichung H2)
Trainingsoperatoren (Ascend-HPC-Custom-Ops, H2)
Nur Benchmarks, Open-Source-Tiefe ignorieren: Die meisten Modelle geben nur Gewichte + Inferenz frei — Training nicht reproduzierbar.
Flash- und Pro-Timeline verwechseln: Flash ab 30.6. nutzbar, Pro-Gewichte erst im Juli.
Hardware-Compliance unterschaetzen: NVIDIA-optimierte Modelle auf Ascend erzwingen — Durchsatz und Kosten leiden; fuer EU-Teams relevant unter DSGVO und Souveraenitaetsanforderungen.
512K-Szenarien unterschaetzen: 128K-Wettbewerber schlucken keine vollstaendige Codebasis oder Vertragswerke.
Agent-Host offline: API laeuft, Laptop zu — HarmonyOS-/OpenClaw-Pipelines brechen trotzdem ab.
openPangu 2.0 Technik: MoE-Innovation, Ascend-Full-Stack-Training und Quantisierung
openPangu 2.0 nutzt MoE (Mixture of Experts) mit diesen Schluesseltechnologien:
| Technologie | Funktion |
|---|---|
| mHC-Routing (Multi-Head Combinatorial) | Effizienteres Experten-Routing, weniger Lastungleichgewicht |
| Muon-Optimierer | Microsofts Second-Order-Momentum-Ansatz, stabilere Gross-Scale-Trainings |
| ModAttn (Modular Attention) | Modulare Attention fuer 512K Long-Context |
| DSA+SWA Ultra-Sparse Attention (Flash exklusiv) | Extreme Sparsity, deutlich geringerer Inferenz-Compute |
Weltweit erstes «ohne NVIDIA» frontier Training: Vollstaendig auf Huawei Ascend 910B NPU, ohne A100 oder H100. Angesichts weiter verschärfter US-Exportkontrollen fuer High-End-AI-Chips hat Huawei nicht nur ein 505B-MoE-Modell trainiert, sondern auch:
Single-Card-Durchsatz das 2-fache gaengiger Open-Source-Modelle (Ascend-affine Architektur)
Super-Node-Trainingseffizienz +30 %
512K-Long-Sequence-Training-Durchsatz +50 %
Train-Infer-Konsistenz >99 % (klassisches MoE-Problem, hoher Engineering-Wert)
Edge-30B-Modell: Inferenz +50 % schneller, −20 % Speicher, Offline auf Kirin-Smartphones
Developer-Stack: Software auf CANN (Huawei, CUDA-aehnlich) + torch_npu (PyTorch-Adapter). Standard-PyTorch-Code wechselt per import torch_npu auf Ascend. Deployment: Huawei Cloud ModelArts API, GitCode Ascend Tribe Self-Host, HarmonyOS Edge.
Flash-Int8-Quantisierung mit W4A8: −40 % Speicher, Genauigkeitsverlust <10 %.
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)openPangu 2.0 vs. DeepSeek, Qwen, Kimi: Wettbewerbsmatrix und Szenario-Entscheidung
| Modell | Gesamtparameter | Aktive Parameter | Kontext | Trainings-HW | Open-Source-Tiefe |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full-Stack (7 Komponenten) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full-Stack (7 Komponenten) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | Gewichte + Inferenz |
| Qwen 3.7 Max | ~400B+ | variiert | 128K | NVIDIA | Gewichte + Inferenz + Teile Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte + Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte + Inferenz |
Capability-Matrix (architekturbasierte Einschaetzung; unabhaengige Benchmarks laufen noch):
| Dimension | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code-Generierung | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Komplexes Reasoning | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Tool-Use / Agent | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Ultra-Long-Context | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Inferenz-Effizienz | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| Souveraenitaet / Compliance | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | ⭐ |
| Full-Stack Open Source | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| Szenario | Empfehlung | Begruendung |
|---|---|---|
| Code / komplexes Reasoning | DeepSeek V4 Pro | 200B aktive Parameter, Spitzenleistung |
| Agent / Multi-Tool | Kimi K2.7 | Staerkstes MCP-Oekosystem |
| Ultra-lange Dokumente (>256K Token) | openPangu 2.0 Pro | 512K Kontext first choice |
| Domestic / Compliance (inkl. DSGVO-Kontext) | openPangu 2.0 | Einziges frontier Modell rein auf domestic HW trainiert |
| Ascend / Huawei Cloud | openPangu 2.0 | Native Optimierung, 2× Durchsatz |
| Edge / Smartphone | openPangu Embedded (30B) | Kirin lokal |
| Guenstige lokale Inferenz | openPangu 2.0 Flash | 6B aktiv, ~96 GB ausreichend |
openPangu 2.0 ist derzeit nicht das staerkste Allround-Open-Source-LLM (Code/Reasoning: DeepSeek V4 Pro klar vorn), aber in 512K Ultra-Context, Souveraenitaet/Compliance, Ascend-nativ 2× Durchsatz, Full-Stack Open Source und Edge-Deployment nahezu unschlagbar.
openPangu 2.0 nutzen: ModelArts API und GitCode Self-Deploy in sechs Schritten
Huawei-Cloud-Konto, ModelArts → AI Gallery → «openPangu 2.0» suchen, Flash oder Pro abonnieren, API-Endpoint erhalten (schnellster Einstieg, keine Hardware).
API-Aufruf: Standard Chat Completions POST, Modell-ID openpangu-2.0-flash.
Gewichte von GitCode: gitcode.com/org/ascend-tribe, Repos openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op klonen.
Flash Single-Card-Inferenz (Ascend 910B): python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
Pro Multi-Card-Distributed-Inferenz (nach Pro-Gewichten im Juli): python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000
Domain-Finetuning (LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16 (vollstaendiges Re-Pre-Training nach H2-Code-Release moeglich).
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Hallo"}],"max_tokens":1024,"temperature":0.7}'| Version | Empfohlene HW | Minimum | Hinweis |
|---|---|---|---|
| Flash (6B aktiv) | Single Ascend 910B | ~96 GB Unified Memory | Community-Tests auf grossen RAM-Systemen moeglich |
| Flash-Int8 | Single Ascend Atlas A2 | ~48 GB VRAM | W4A8, Genauigkeitsverlust <10 % |
| Pro (18B aktiv) | 4+ Ascend 910B | Multi-Card-Cluster | Verifikation nach Pro-Release im Juli |
Strategische Bedeutung, openPangu License und Open-Source-Roadmap
Geopolitik und historische Bedeutung: openPangu 2.0 ist das weltweit erste frontier Open-Source-LLM ohne NVIDIA-Training. Richard Yu auf der HDC 2026: «In meinem restlichen Leben gibt es kein Zweites, nur Erstes.» Full-Stack-Open-Source unterstuetzt Forschung (Training reproduzieren), Branchenanpassung (Vertical Re-Pre-Training) und Ascend-Oekosystem — relevant auch fuer Teams mit DSGVO- und Souveraenitaetsanforderungen bei Modell- und Datenherkunft.
HarmonyOS-Agent-Basis: HarmonyOS 7 geht voll in die Agent-Aera; openPangu 2.0 ist native AI-Engine fuer Agent-Tasks; HarmonyOS Agent Framework 2.0: >90 % Erfolg bei komplexen Tasks; Edge-30B laeuft lokal auf Smartphones ohne Netz.
openPangu License: Kommerzielle Nutzung erlaubt, lizenzgebuehrenfrei, nicht-exklusiv; Details in GitCode-Repos.
Open-Source-Roadmap:
| Zeit | Inhalt |
|---|---|
| 2026-06-30 ✅ | Flash-Gewichte + Inferenz-Code + Operatoren |
| 2026-07 🔜 | Pro-Gewichte + Inferenz-Code |
| H2 2026 📋 | Pre-/Post-Training-Code, weitere Operatoren, Data-Tools |
505B / 18B aktiv / 512K: Pro unter den laengsten Kontextfenstern aktuell veroeffentlichter Open-Modelle.
92B / 6B aktiv / ~15:1 Sparsity: Flash fast so schnell wie 6B-Dense, Wissensbasis 92B.
Train-Infer-Konsistenz >99 %: Seltene Engineering-Kennzahl bei MoE.
Hinweis: Teile der Benchmark-Einschaetzungen basieren auf Architektur-Inferenz; unabhaengige Tests werden nach Veroeffentlichung ergaenzt. Stand 2026-07-01. Quellen: GitCode Ascend Tribe, Huawei Developer, HDC-2026-Ankuendigung.
Reine API-Aufrufe ersetzen keinen Agent-Produktions-Host: Laptop zu, Multi-Key-Chaos, HarmonyOS-/OpenClaw-Pipelines brauchen dauerhaftes macOS — lokales Debug und Cloud-API haben versteckte Kosten. Fuer 7×24 stabile Multi-Modell-Agenten mit ModelArts und OpenRouter-Routing ist KVMNODE dedizierter Cloud Mac Mini oft die bessere Wahl: native Apple-Silicon-Toolchain, flexible Laufzeiten, DSGVO-konforme Hosting-Optionen. Details: Mietpreise, Hilfezentrum, Bestellung: Bestellen.