HDC 2026 発表と openPangu 2.0 の核心:タイムライン、2 バリアント、7 大コンポーネント
2026 年 6 月 12 日、Huawei 開発者大会 HDC 2026 が東莞・松山湖で開催され、余承東の基調講演で openPangu 2.0 が正式発表されました。6 月 30 日、openPangu-2.0-Flash のモデル重み、基本推論コード、訓練・推論オペレータが GitCode でオープンソース公開されました。これは単なる OSS モデルの追加ではなく、非 NVIDIA ハードウェアでフロンティア規模の訓練を完了した初の OSS 大モデルであり、真のフルスタック OSS を実現した超大規模 MoE モデルの一つです。
| 日付 | イベント |
|---|---|
| 2026-06-12 | HDC 2026 基調講演で openPangu 2.0 正式発表 |
| 2026-06-30 | Flash 重み・推論コード・訓推算子を GitCode 公開(公開済み) |
| 2026-07(予定) | Pro 重みと推論コード公開 |
| 2026 下半期(予定) | 事前訓練コード、事後訓練コード、追加訓推算子 |
2 バリアント、共通 512K 超長コンテキスト:
| バリアント | 総パラメータ | 活性パラメータ | スパース比 | コンテキスト | 状態 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | 7 月公開予定 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | 6/30 公開済み |
512K コンテキストは、長編小説 8 冊分相当のテキストを一度に処理できる規模です。契約書全文、大規模コードベース、長時間の会話履歴をチャンク分割なしで投入できます。
公開予定の 7 大コンポーネント:
モデル構造(架構定義)— 6/30 公開済み
モデル重み(Flash 6/30 公開、Pro 7 月予定)
技術レポート(重みと同時公開)— 公開済み
推論コード + 訓推算子 — 6/30 公開済み
事前訓練コード(下半期公開、同規模では極めて稀)
最初の 4 項目は OSS の標準的な範囲です。残り 3 項目(事前訓練/事後訓練コード + 昇腾訓推算子)は 500B 超 MoE ではほぼ前例がなく、重みのみの公開ではなく真のフルスタック OSS を意味します。
事後訓練コード(SFT/RLHF 対応、下半期公開)
訓推算子(昇腾最適化カスタムカーネル、下半期公開)
ベンチマークだけ見て OSS 深度を軽視: 多くのモデルは重み+推論のみで、訓練パイプラインを再現できません。
Flash と Pro の公開時期を混同: Flash は 6/30 から利用可能、Pro 重みは 7 月まで待つ必要があります。
ハードウェア制約を無視: 昇腾環境で NVIDIA 最適化モデルを無理に走らせると、スループットとコストの両方で損をします。
512K の価値を過小評価: 128K 競合はコードベースや法務契約を一括投入できません。
Agent ホストがオフライン: API は稼働中でもノート PC を閉じれば、HarmonyOS/OpenClaw パイプラインは停止します。
openPangu 2.0 技術詳解:MoE 架構革新、昇腾フルスタック訓練、量子化版
openPangu 2.0 は MoE(Mixture of Experts) 架構を採用しています。主要技術要素:
| 技術 | 役割 |
|---|---|
| mHC ルーティング(Multi-Head Combinatorial) | エキスパートルーティング効率を改善し、負荷不均衡を低減 |
| Muon オプティマイザ | Microsoft 二階モーメンタム方式、大規模訓練の安定性向上 |
| ModAttn(Modular Attention) | モジュラー Attention、512K 超長シーケンスに最適化 |
| DSA+SWA 超スパース Attention(Flash 専用) | 極端なスパース比で推論計算量を大幅削減 |
NVIDIA GPU 不使用のフロンティア訓練: 全訓練は Huawei 昇腾 910B NPU 上で完了し、A100 や H100 は一切使用していません。米国の対中先端 AI チップ輸出規制が強化される中、Huawei は 505B MoE モデルの訓練に加え、以下も達成しました:
単一カードスループットが主流 OSS モデルの 2 倍(昇腾ネイティブ架構)
スーパーノード訓練効率 +30% 向上
512K 長シーケンス訓練スループット +50% 向上
訓推一致率 >99%(MoE モデルの長年の課題、極めて高い価値)
端末 30B 組込みモデル: 推論 50% 高速化、メモリ 20% 削減、Kirin 搭載スマホでオフライン実行
開発者スタック: CANN(Huawei 自研、CUDA 相当)+ torch_npu(PyTorch アダプタ)上に構築。標準 PyTorch コードは import torch_npu で昇腾バックエンドに切り替え可能です。展開経路:Huawei Cloud ModelArts API、GitCode Ascend Tribe 自前展開、HarmonyOS ネイティブ端末統合。
Flash-Int8 量子化版が公開済みで、W4A8 量子化によりメモリ使用量 40% 削減、精度低下 10% 未満 です。
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)openPangu 2.0 と DeepSeek・Qwen・Kimi:競合比較と選定ガイド
| モデル | 総パラメータ | 活性パラメータ | コンテキスト | 訓練 HW | OSS 深度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 昇腾 NPU | フルスタック(7 コンポーネント) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 昇腾 NPU | フルスタック(7 コンポーネント) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 重み+推論 |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | 重み+推論+一部訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 重み+推論 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 重み+推論 |
能力マトリクス(架構ベースの推定。独立第三者ベンチマークは評価中):
| 能力軸 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | 良好 | 最高水準 | 非常に良好 | 非常に良好 |
| 複雑推論 | 良好 | 最高水準 | 最高水準 | 非常に良好 |
| ツール呼出/Agent | 非常に良好 | 非常に良好 | 非常に良好 | 最高水準 |
| 超長コンテキスト | 最高水準(512K) | 中程度 | 中程度 | 良好 |
| 推論効率 | 最高水準(昇腾 2 倍) | 中程度 | 中程度 | 良好 |
| 自主可控 | 最高水準 | 限定的 | 限定的 | 限定的 |
| フルスタック OSS | 最高水準 | 部分的 | 部分的 | 部分的 |
| シーン | 推奨 | 理由 |
|---|---|---|
| コード生成 / 複雑推論 | DeepSeek V4 Pro | 活性 200B、現時点の性能リーダー |
| Agent / マルチツール協調 | Kimi K2.7 | MCP エコシステムが最も成熟 |
| 超長文書(>256K Token) | openPangu 2.0 Pro | 512K コンテキストが最適 |
| 国産化 / コンプライアンス | openPangu 2.0 | 非 NVIDIA 国産 HW で訓練した唯一のフロンティアモデル |
| 昇腾 / Huawei Cloud 環境 | openPangu 2.0 | ネイティブ最適化、2 倍スループット |
| 端末 / モバイル展開 | openPangu Embedded(30B) | Kirin チップでローカル推論 |
| 低コストローカル推論 | openPangu 2.0 Flash | 活性 6B、約 96GB で実行可能 |
openPangu 2.0 は現時点で総合能力が最強の OSS 大モデルではありません(コード・複雑推論では DeepSeek V4 Pro が優位)。しかし 512K 超長コンテキスト、国産 AI サプライチェーン、昇腾ネイティブ 2 倍スループット、フルスタック OSS、端末展開 の 5 次元では代替がほぼありません。
openPangu 2.0 の使い方:ModelArts API と GitCode 自前展開 6 ステップ
Huawei Cloud アカウント登録、ModelArts → AI Gallery →「openPangu 2.0」検索、Flash または Pro を購読して API エンドポイント取得(最速、ハードウェア不要)。
API 呼び出し: 標準 Chat Completions 形式で POST。モデル ID は openpangu-2.0-flash。
GitCode から重み取得: gitcode.com/org/ascend-tribe から openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op を clone。
Flash 単一カード推論(昇腾 910B):python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
Pro マルチカード分散推論(7 月重み公開後):python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000
ドメイン微調整(LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16(下半期の事前訓練コード公開後、完全な二次事前訓練が可能)。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"こんにちは"}],"max_tokens":1024,"temperature":0.7}'| バリアント | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(活性 6B) | 単一昇腾 910B | ~96GB 統合メモリ | 大メモリシステムでのコミュニティ検証あり |
| Flash-Int8 | 単一昇腾 Atlas A2 | ~48GB メモリ | W4A8 量子化、精度低下 <10% |
| Pro(活性 18B) | 4 枚以上の昇腾 910B | マルチカードクラスタ | 7 月重み公開後に検証 |
戦略的意義、openPangu License、OSS ロードマップ:引用可能なハードデータ
地政学と歴史的意義: openPangu 2.0 は 非 NVIDIA ハードウェアでフロンティア規模の訓練を完了した初の OSS 大モデル です。HDC 2026 で余承東は「余生の辞書に第二はない、第一だけがある」と述べました。フルスタック OSS は学術研究(訓練の完全再現)、業界カスタマイズ(垂直ドメイン二次事前訓練)、昇腾エコシステム構築に戦略的価値があります。
HarmonyOS Agent 基盤: HarmonyOS 7 は Agent 時代に全面移行し、openPangu 2.0 が Agent タスクのネイティブ AI エンジンです。HarmonyOS Agent Framework 2.0 は複雑タスク実行成功率 >90%。端末 30B モデルはスマホ上でネットワーク不要のローカル LLM 実行を実現します。
openPangu License: 商用利用可、ロイヤリティフリー、非独占。詳細条項は GitCode リポジトリを確認してください。
OSS ロードマップ:
| 時期 | 内容 |
|---|---|
| 2026-06-30(公開済み) | Flash 重み + 推論コード + 訓推算子 |
| 2026-07(予定) | Pro 重み + 推論コード |
| 2026 下半期(予定) | 事前訓練コード、事後訓練コード、追加オペレータ、データ処理ツール |
505B / 活性 18B / 512K: Pro 版は現行 OSS モデル中最長クラスのコンテキスト。
92B / 活性 6B / ~15:1 スパース: Flash は 6B 稠密モデルに近い速度で 92B の知識容量を保持。
訓推一致率 >99%: MoE 分野で極めて価値の高いエンジニアリング指標。
注意: 本文の一部能力評価は架構ベースの推定です。独立第三者ベンチマーク公開後に更新します。執筆日 2026-07-01。参考:GitCode Ascend Tribe、Huawei 開発者ポータル、HDC 2026 公式発表。
API 呼び出しのみでは Agent 本番ホストを代替できません。ノート PC を閉じると切断、複数 Key 管理が混乱、HarmonyOS/OpenClaw パイプラインには macOS 常時オンラインが必要です。ローカルデバッグとクラウド API にはそれぞれ隠れコストがあります。7×24 で多モデル Agent を安定稼働し、Huawei Cloud ModelArts と OpenRouter を併用する本番環境には、KVMNODE 専用 Mac Mini クラウドレンタルが通常より優れた選択です。Apple Silicon ネイティブツールチェーン、日/週/月の柔軟注文。詳細は 料金ページ、注文は 注文入口 から。