HDC 2026 發佈與 openPangu 2.0 核心事實:時間軸、雙版本參數與 7 大元件
2026 年 6 月 12 日,華為開發者大會 HDC 2026 在東莞松山湖舉辦,余承東主題演講正式發佈 openPangu 2.0。6 月 30 日,openPangu-2.0-Flash 模型權重、基礎推論程式碼、訓推算子正式開源上線 GitCode——這不只是又一個開源模型,它是全球首個在非 NVIDIA 硬體上完成前沿規模訓練的開源大模型,也是業界極少數真正做到全鏈路開源的超大規模 MoE 模型。
| 時間 | 事件 |
|---|---|
| 2026-06-12 | HDC 2026 余承東主題演講正式發佈 openPangu 2.0 |
| 2026-06-30 | Flash 版權重、推論程式碼、訓推算子上線 GitCode(已上線) |
| 2026-07(規劃) | Pro 版權重與推論程式碼上線(規劃中) |
| 2026 下半年(規劃) | 預訓練程式碼、後訓練程式碼、更多訓練算子(規劃中) |
兩個版本,統一 512K 超長上下文:
| 版本 | 總參數 | 啟用參數 | 稀疏比 | 上下文 | 狀態 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | 7 月規劃上線 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | 6/30 已上線 |
512K 上下文相當於一次處理約 8 本《三體》(第一部)的文字量——完整合約、大型程式碼庫、超長對話紀錄均可單次送入。
計畫開源的 7 大元件:
模型結構(架構定義)— 6/30 已發佈
模型權重(Flash 6/30 已上線,Pro 7 月上線)
技術報告(隨權重同步發佈)— 已發佈
推論程式碼 + 訓推算子 — 6/30 已發佈
預訓練程式碼(下半年發佈,業界極罕見)
前四項是業界開源常規操作;後三項(預訓練/後訓練程式碼 + 昇騰訓練算子)在超大規模 MoE 模型中極為罕見,實現真正意義上的全鏈路開源。
後訓練程式碼(SFT/RLHF 支援,下半年發佈)
訓練算子(昇騰高效能自訂算子,下半年發佈)
只關心跑分、忽視開源深度:多數模型僅開放權重與推論,無法復現訓練流程。
混淆 Flash 與 Pro 上線時間:Flash 6/30 可用,Pro 須等 7 月權重。
忽視國產硬體約束:在昇騰環境硬跑 NVIDIA 最佳化模型,吞吐與成本雙輸。
低估 512K 場景價值:128K 競品無法一次吞下完整程式碼庫或法務合約。
Agent 宿主離線:API 在線、筆電合蓋,鴻蒙 Agent 流水線照樣中斷。
openPangu 2.0 技術深度:MoE 架構創新、昇騰全棧訓練與量化版本
openPangu 2.0 採用 MoE(混合專家)架構,關鍵技術特點:
| 技術 | 作用 |
|---|---|
| mHC 路由(Multi-Head Combinatorial) | 改進專家路由效率,降低負載不均衡 |
| Muon 最佳化器 | 微軟二階動量方案,提升大規模訓練穩定性 |
| ModAttn(Modular Attention) | 模組化注意力,適配 512K 超長上下文 |
| DSA+SWA 超稀疏注意力(Flash 獨有) | 實現極致稀疏比,大幅降低推論算力需求 |
全球首個「無 NVIDIA」前沿大模型訓練:全部訓練在華為昇騰 910B NPU 上完成,未使用任何 A100 或 H100。在美國持續收緊對華高端 AI 晶片出口管制的背景下,華為不僅訓練出 505B MoE 模型,還實現:
單卡吞吐率達業界主流開源模型的 2 倍(昇騰親和架構)
超節點訓練效率提升 +30%
512K 長序列訓練吞吐率提升 +50%
訓推一致率 >99%(MoE 模型老大難問題,極具價值)
端側 30B 入端模型:推論提速 50%,記憶體占用減少 20%,支援麒麟晶片手機離線執行
開發者生態:軟體棧基於 CANN(華為自研,類 CUDA)+ torch_npu(PyTorch 適配層)。標準 PyTorch 程式碼透過 import torch_npu 即可切換昇騰後端。部署平台涵蓋:華為雲 ModelArts API、GitCode Ascend Tribe 自部署、鴻蒙原生端側整合。
已發佈 Flash-Int8 量化版,支援 W4A8 量化,記憶體占用減少 40%,精度損失 <10%。
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)openPangu 2.0 和 DeepSeek、Qwen、Kimi 怎麼選?競品對照與場景決策
| 模型 | 總參數 | 啟用參數 | 上下文 | 訓練硬體 | 開源程度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 昇騰 NPU | 全鏈路(7 元件) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 昇騰 NPU | 全鏈路(7 元件) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 權重+推論 |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | 權重+推論+部分訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 權重+推論 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 權重+推論 |
能力矩陣(基於架構推斷,獨立第三方 benchmark 尚在評測中):
| 能力維度 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 程式碼生成 | 中 | 極高 | 高 | 高 |
| 複雜推論 | 中 | 極高 | 極高 | 高 |
| 工具呼叫/Agent | 高 | 高 | 高 | 極高 |
| 超長上下文 | 極高 | 中 | 中 | 高 |
| 推論效率 | 極高 | 低 | 低 | 高 |
| 自主可控 | 極高 | 低 | 低 | 低 |
| 全鏈路開源 | 極高 | 中 | 中 | 中 |
| 場景 | 推薦 | 原因 |
|---|---|---|
| 程式碼生成 / 複雜推論 | DeepSeek V4 Pro | 200B 啟用參數,效能領先 |
| Agent / 多工具協作 | Kimi K2.7 | MCP 生態最完善 |
| 超長文件(>256K Token) | openPangu 2.0 Pro | 512K 上下文首選 |
| 國產化 / 合規部署 | openPangu 2.0 | 唯一純國產硬體訓練的前沿模型 |
| 昇騰 / 華為雲環境 | openPangu 2.0 | 原生最佳化,吞吐率 2× |
| 端側 / 手機部署 | openPangu Embedded(30B) | 麒麟晶片本地執行 |
| 低成本本地推論 | openPangu 2.0 Flash | 6B 啟用,~96GB 可跑 |
openPangu 2.0 不是現階段綜合能力最強的開源大模型(程式碼與複雜推論上 DeepSeek V4 Pro 優勢明顯),但在 512K 超長上下文、國產自主可控、昇騰原生 2× 吞吐、全鏈路開源、端側適配 五個維度上幾乎無可替代。
openPangu 2.0 怎麼用?ModelArts API 與 GitCode 自部署六步指南
註冊華為雲帳號,進入 ModelArts → AI Gallery → 搜尋「openPangu 2.0」,訂閱 Flash 或 Pro 取得 API Endpoint(最快上手,無需硬體)。
API 呼叫:按標準 Chat Completions 格式 POST,模型 ID 為 openpangu-2.0-flash。
GitCode 下載權重:造訪 gitcode.com/org/ascend-tribe,拉取 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op 等儲存庫。
Flash 單卡推論(昇騰 910B):python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16
Pro 多卡分散式推論(7 月權重上線後):python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000
領域微調(LoRA):python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16(預訓練程式碼 H2 開源後可做完整二次預訓練)。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"你好"}],"max_tokens":1024,"temperature":0.7}'| 版本 | 建議硬體 | 最低配置 | 備註 |
|---|---|---|---|
| Flash(6B 啟用) | 單卡昇騰 910B | ~96GB 統一記憶體 | 社群測試可在大記憶體系統執行 |
| Flash-Int8 | 單卡昇騰 Atlas A2 | ~48GB 記憶體 | W4A8 量化,精度損失 <10% |
| Pro(18B 啟用) | 4+ 卡昇騰 910B | 多卡叢集 | 7 月權重上線後可驗證 |
戰略意義、openPangu License 與開源路線圖:可引用硬核資料
地緣政治與歷史意義:openPangu 2.0 是全球首個在非 NVIDIA 硬體上完成前沿規模訓練的開源大模型。余承東在 HDC 2026 表示:「在我余生的字典裡,沒有第二,只有第一。」全鏈路開源對學術研究(完整復現訓練)、產業客製(垂直域二次預訓練)、昇騰生態建設均具戰略價值。
HarmonyOS Agent 底座:HarmonyOS 7 全面進入 Agent 智慧時代,openPangu 2.0 是 Agent 任務原生 AI 引擎;鴻蒙智慧體框架 2.0 複雜任務執行成功率 >90%;端側 30B 模型實現手機本地大模型執行,無需連網。
openPangu License:可商業使用、免版權費、非排他性;具體條款以 GitCode 儲存庫為準。
開源路線圖:
| 時間 | 內容 |
|---|---|
| 2026-06-30(已上線) | Flash 權重 + 推論程式碼 + 訓推算子 |
| 2026-07(規劃中) | Pro 權重 + 推論程式碼 |
| 2026 下半年(規劃中) | 預訓練程式碼、後訓練程式碼、更多算子、資料處理工具 |
505B / 18B 啟用 / 512K:Pro 版當前開源模型中最長上下文件位之一。
92B / 6B 啟用 / ~15:1 稀疏:Flash 跑起來接近 6B 稠密模型速度,知識量達 92B。
訓推一致率 >99%:MoE 領域極具價值的工程指標。
注意:本文部分 benchmark 為基於架構的推斷性評估,獨立第三方測試結果公佈後將持續更新。撰寫日 2026-07-01。參考:GitCode Ascend Tribe、華為開發者官網、HDC 2026 官方公告。
純 API 呼叫無法替代 Agent 生產宿主:筆電合蓋斷線、多路 Key 管理混亂、鴻蒙/OpenClaw 流水線需 macOS 常駐——本地除錯與雲端 API 各有隱性成本。對於需要 7×24 穩定執行多模型 Agent、同時對接華為雲 ModelArts 與 OpenRouter 路由的生產環境,KVMNODE 獨占 Mac Mini 雲端租用通常是更優解:Apple Silicon 原生工具鏈、按天/週/月彈性下單。詳見 定價頁,部署疑難可至 說明中心,下單走 訂購入口。