HDC 2026 et faits clés openPangu 2.0 : chronologie, double version et 7 composants
Le 12 juin 2026, la Huawei Developer Conference HDC 2026 s'est tenue à Dongguan Songshan Lake ; Richard Yu a présenté openPangu 2.0 lors de la keynote. Le 30 juin, les poids openPangu-2.0-Flash, le code d'inférence de base et les opérateurs train/inférence sont passés en open source sur GitCode — pas un modèle de plus, mais le premier LLM frontier open source entièrement entraîné sans matériel NVIDIA, et l'un des rares MoE ultra-massifs avec une ouverture full-stack réelle.
| Date | Événement |
|---|---|
| 2026-06-12 | HDC 2026 keynote : annonce officielle openPangu 2.0 |
| 2026-06-30 | Poids Flash, code inférence, opérateurs sur GitCode ✅ |
| 2026-07 (prévu) | Poids Pro et code inférence 🔜 |
| S2 2026 (prévu) | Code pré-entraînement, post-entraînement, plus d'opérateurs 📋 |
Deux versions, contexte ultra-long 512K unifié :
| Version | Paramètres totaux | Paramètres actifs | Sparsité | Contexte | Statut |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Prévu juillet |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live 30/06 |
512K de contexte équivaut à environ 8 volumes du « Problème à trois corps » (tome 1) — contrats complets, grandes bases de code ou historiques de dialogue en une seule passe.
7 composants open source prévus :
Architecture du modèle (définition structure) — ✅ publié 30/06
Poids du modèle (Flash live 30/06, Pro prévu juillet)
Rapport technique (synchronisé avec les poids) — ✅
Code inférence + opérateurs train/inférence — ✅ 30/06
Code pré-entraînement (S2, rare dans l'industrie)
Les quatre premiers points sont la norme open source ; les trois derniers (code pré/post-entraînement + opérateurs Ascend) sont exceptionnels à cette échelle MoE — une ouverture full-stack au sens fort.
Code post-entraînement (SFT/RLHF, publication S2)
Opérateurs d'entraînement (custom ops Ascend HPC, S2)
Ne regarder que les scores, ignorer la profondeur open source : La plupart des modèles n'ouvrent que poids + inférence — entraînement non reproductible.
Confondre les calendriers Flash et Pro : Flash utilisable dès le 30/06, poids Pro en juillet.
Sous-estimer les contraintes matérielles : Forcer un modèle optimisé NVIDIA sur Ascend — débit et coûts en souffrance.
Sous-estimer la valeur 512K : Les concurrents 128K n'avalent pas une base de code ou un contrat juridique complet.
Hôte agent hors ligne : API en ligne, portable fermé — pipelines HarmonyOS/OpenClaw coupés quand même.
openPangu 2.0 en profondeur : innovation MoE, entraînement Ascend full-stack et quantification
openPangu 2.0 adopte une architecture MoE (Mixture of Experts) avec ces technologies clés :
| Technologie | Rôle |
|---|---|
| Routage mHC (Multi-Head Combinatorial) | Routing d'experts plus efficace, moins de déséquilibre de charge |
| Optimiseur Muon | Approche momentum second ordre Microsoft, entraînement massif plus stable |
| ModAttn (Modular Attention) | Attention modulaire adaptée au contexte 512K |
| Attention ultra-sparse DSA+SWA (Flash exclusif) | Sparsité extrême, besoin compute inférence fortement réduit |
Premier entraînement frontier « sans NVIDIA » : Entièrement sur NPU Huawei Ascend 910B, sans A100 ni H100. Face au durcissement des contrôles à l'exportation US sur les puces IA haut de gamme, Huawei a non seulement entraîné un MoE 505B, mais aussi :
Débit mono-carte ×2 vs modèles open source mainstream (architecture affine Ascend)
Efficacité super-nœud +30 %
Débit entraînement séquences 512K +50 %
Cohérence train-inférence >99 % (problème classique MoE, valeur ingénierie élevée)
Modèle edge 30B : inférence +50 %, −20 % mémoire, exécution offline sur smartphones Kirin
Stack développeur : Logiciel basé sur CANN (Huawei, type CUDA) + torch_npu (adaptateur PyTorch). Code PyTorch standard bascule via import torch_npu. Déploiement : API Huawei Cloud ModelArts, auto-hébergement GitCode Ascend Tribe, edge HarmonyOS.
Version quantifiée Flash-Int8 W4A8 : −40 % mémoire, perte de précision <10 %.
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)openPangu 2.0 vs DeepSeek, Qwen, Kimi : matrice concurrentielle et choix par scénario
| Modèle | Paramètres totaux | Paramètres actifs | Contexte | HW entraînement | Profondeur open source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full-stack (7 composants) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full-stack (7 composants) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | Poids + inférence |
| Qwen 3.7 Max | ~400B+ | variable | 128K | NVIDIA | Poids + inférence + entraînement partiel |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Poids + inférence |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Poids + inférence |
Matrice de capacités (estimation architecturale ; benchmarks tiers indépendants en cours) :
| Dimension | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Génération de code | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Raisonnement complexe | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Outils / Agent | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Contexte ultra-long | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Efficacité inférence | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| Souveraineté / conformité | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | ⭐ |
| Open source full-stack | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| Scénario | Recommandation | Raison |
|---|---|---|
| Code / raisonnement complexe | DeepSeek V4 Pro | 200B actifs, performance de pointe |
| Agent / multi-outils | Kimi K2.7 | Écosystème MCP le plus mature |
| Documents ultra-longs (>256K tokens) | openPangu 2.0 Pro | 512K contexte, premier choix |
| Domestique / conformité souveraine | openPangu 2.0 | Seul modèle frontier entraîné sur HW domestique pur |
| Ascend / Huawei Cloud | openPangu 2.0 | Optimisation native, débit ×2 |
| Edge / smartphone | openPangu Embedded (30B) | Exécution locale Kirin |
| Inférence locale économique | openPangu 2.0 Flash | 6B actifs, ~96 Go suffisants |
openPangu 2.0 n'est pas aujourd'hui le LLM open source le plus polyvalent (code/raisonnement : DeepSeek V4 Pro nettement devant), mais sur 512K ultra-contexte, souveraineté/conformité, débit Ascend natif ×2, open source full-stack et déploiement edge, il est quasi irremplaçable.
Utiliser openPangu 2.0 : API ModelArts et auto-hébergement GitCode en six étapes
Compte Huawei Cloud, ModelArts → AI Gallery → rechercher « openPangu 2.0 », s'abonner à Flash ou Pro, obtenir l'endpoint API (démarrage le plus rapide, sans matériel).
Appel API : POST format Chat Completions standard, ID modèle openpangu-2.0-flash.
Télécharger les poids GitCode : gitcode.com/org/ascend-tribe, cloner openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
Inférence Flash mono-carte (Ascend 910B) : python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
Inférence Pro multi-cartes (après poids Pro en juillet) : python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000
Finetuning domaine (LoRA) : python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16 (re-pré-entraînement complet possible après publication code S2).
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Bonjour"}],"max_tokens":1024,"temperature":0.7}'| Version | Matériel recommandé | Minimum | Remarque |
|---|---|---|---|
| Flash (6B actifs) | Ascend 910B mono-carte | ~96 Go mémoire unifiée | Tests communautaires sur grands systèmes RAM possibles |
| Flash-Int8 | Ascend Atlas A2 mono-carte | ~48 Go VRAM | W4A8, perte précision <10 % |
| Pro (18B actifs) | 4+ Ascend 910B | Cluster multi-cartes | Validation après release Pro en juillet |
Signification stratégique, openPangu License et feuille de route open source
Géopolitique et portée historique : openPangu 2.0 est le premier LLM frontier open source entraîné sans NVIDIA. Richard Yu au HDC 2026 : « Dans le reste de ma vie, il n'y a pas de deuxième, seulement le premier. » L'open source full-stack sert la recherche (reproduire l'entraînement), la personnalisation sectorielle (re-pré-entraînement vertical) et l'écosystème Ascend.
Fondation agent HarmonyOS : HarmonyOS 7 entre pleinement dans l'ère agent ; openPangu 2.0 est le moteur IA natif pour tâches agent ; HarmonyOS Agent Framework 2.0 : >90 % de succès sur tâches complexes ; modèle edge 30B sur smartphone sans réseau.
openPangu License : Usage commercial autorisé, sans redevances, non exclusif ; détails dans les dépôts GitCode.
Feuille de route open source :
| Date | Contenu |
|---|---|
| 2026-06-30 ✅ | Poids Flash + code inférence + opérateurs |
| 2026-07 🔜 | Poids Pro + code inférence |
| S2 2026 📋 | Code pré/post-entraînement, plus d'opérateurs, outils data |
505B / 18B actifs / 512K : Pro parmi les plus longues fenêtres de contexte des modèles open actuels.
92B / 6B actifs / ~15:1 sparsité : Flash quasi aussi rapide qu'un dense 6B, base de connaissances 92B.
Cohérence train-inférence >99 % : métrique ingénierie rare en MoE.
Note : Certaines évaluations benchmark sont inférées de l'architecture ; les tests tiers indépendants seront ajoutés après publication. Date 2026-07-01. Sources : GitCode Ascend Tribe, Huawei Developer, annonce HDC 2026.
Les appels API seuls ne remplacent pas un hôte agent de production : portable fermé, chaos multi-clés, pipelines HarmonyOS/OpenClaw exigent macOS permanent — debug local et API cloud ont des coûts cachés. Pour des agents multi-modèles stables 7×24 avec ModelArts et routage OpenRouter, le Mac Mini cloud dédié KVMNODE est souvent le meilleur choix : toolchain Apple Silicon native, durées flexibles. Détails : tarifs, centre d'aide, commande : commander.