2026年になぜ OpenRouter ランキングを見るべきか — Benchmark だけでは足りない理由
OpenRouter は Anthropic、Google、DeepSeek、Tencent 混元、Moonshot、NVIDIA など数百モデルを束ねる統一 API です。ランキングは直近の実 Token 呼び出し総量で並びます。開発者が課金して繰り返しルートしたモデルが上位に来る — これは MMLU や HumanEval のような「実験室の一回勝負」とは別物です。2026年中期には差が拡大しています。プレスリリースは対話品質を強調しても、呼び出し量の王様はしばしば Agent コーディング、ツール呼び出し、超長コンテキスト RAG でコスパが最も良いルートです。
OpenRouter の 2026年6月前後の公開統計とコミュニティ監視(執筆時点のユーザー側スクリーンショット参照)から、市場には五つのシグナルが見えます。中国発オープンモデルが Top10 の半分を占め、成長率は数百パーセントに達することがあります。1M Token コンテキストは差別化から前提へ。MoE がデフォルトアーキテクチャに。完全無料の Agent 向けモデル(Owl Alpha、Nemotron 3 Super free)が学生と個人開発者を分流。マルチモーダルは Gemini と Claude 旗艦がエンタープライズを守っています。昨年の「GPT-4 級クローズド旗艦」一本で予算を組むと、6月の請求と Agent 安定性の両方で痛い目に遭いやすいです。
Benchmark だけ見る:SWE-bench で高いモデルでも、実運用は高頻度小タスク+長コンテキスト読み込みで、請求とレイテンシの曲線が別物です。
単一モデル信仰:ルート切替を禁止すると、コーディングは Sonnet、バッチも同単価のまま — 月額が膨らみます。
無料層のコンプラ軽視:Owl Alpha など Stealth モデルは Prompt を記録して改善に使う可能性があり、機密 repo の誤ルートは事故になります。
API はオンライン、ホストはオフライン:ノート PC を閉じると OpenClaw / Claude Code のバックグラウンドが止まり、ランキングが正しくても実行環境は救えません。
コンテキストの錯覚:200K で足りると思っても、1ラウンドで diff・ログ・ツール応答が溢れ、1M 枠かキャッシュ戦略が要ります。
本稿は OpenRouter Top10 をルーティング決定の北極星として扱います。「最強の1モデル」の答えではありません。最強はタスク像次第です — 日常執筆、GitHub Issue 級コーディング、12時間の Agent Swarm、オンプレ吞吐。四半期ごとに OpenRouter ダッシュボードと社内請求を突き合わせ、契約上の単一 Claude 縛りと実流量のズレを直すことをおすすめします。
2026年6月 OpenRouter Top10:呼び出し量・成長率・一行定位
下表は OpenRouter Rankings のスクリーンショット口径(2026年6月)と各社ドキュメントを統合したものです。Token 量はプラットフォーム統計の直近規模、トレンドは前周期比です。週で順位は動きますが、構造 — 中国 MoE オープンが先頭、Claude がハイエンド、Google がマルチモーダル — は 2026 上半期で比較的安定しています。
| 順位 | モデル | 組織 | 呼び出し(概算) | トレンド | 定位 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10.9T | 995% | 1M ctx · MoE 284B/13B act · Agent/API コスパ王 |
| 2 | Hy3 Preview | Tencent | 10.7T | >999% | OSS MoE · Agent/STEM · 推論 +40% |
| 3 | Claude Opus 4.7 | Anthropic | 7.48T | 197% | 旗艦推論 · 高解像 vision · 長時間 Agent |
| 4 | Claude Sonnet 4.6 | Anthropic | 7.45T | 34% | 本番主力 · Opus より約1.7倍安 · 無料層 |
| 5 | Owl Alpha | OpenRouter | 5.03T | >999% | $0 · 1.05M ctx · Agent 最適化 |
| 6 | Gemini 3 Flash Preview | 4.6T | 3% | フルモーダル · 低遅延 · SWE-bench 78%級 | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4.54T | 739% | 旗艦 MoE 1.6T · 複雑推論/コード SOTA |
| 8 | DeepSeek V3.2 | DeepSeek | 4.31T | -14% | 前世代 · V4 に分流 |
| 9 | Kimi K2.6 | Moonshot | 3.72T | 1% | 1T MoE · Agent Swarm · OSS |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2.65T | 3% | 無料 OSS · Mamba+Transformer · 高スループット |
DeepSeek V4 Flash が1位なのは自然です。1M コンテキストで公式資料は単 Token FLOPs が V3.2 の 10%、KV が 7% 程度と説明しています。極低 API 単価と合わせ、Cursor・OpenClaw・OpenCode のデフォルト「大量 repo 読み+頻繁ツール」ルートになりました。Hy3 Preview は Tencent 混元3 OSS MoE(295B 総量・約21B 激活)でプライベートと STEM Agent を受け、SWE-bench Verified 約 74.4% です。
西洋クローズドは退場していません。Claude Opus 4.7 は複雑なソフトウェア工学と vision ワークフローでプレミアムが残ります。長時間自律 Agent の「迷子率」は Sonnet より低いという Cursor コミュニティ評価があります。Gemini 3 Flash はマルチモーダルと Google 連携で検索・企業統合を守ります。Owl Alpha と Nemotron 3 Super (free) は、2026年に開発者が無料で原型を作り、品質敏感パスだけ有料にする — OpenRouter が「マルチモデルスイッチ」である理由そのものです。
ランキングは「みんなが何を使っているか」を答え、「あなたは1つだけ使うべきか」は答えません。本番は階層ルーティングが前提です。
6軸能力比較と 2026 年の6大トレンド
順位だけでは選べません。日常・コード・長文・推論・マルチモーダル・Agent の6軸で粗く比較します(5が高めの相対档)。2〜3候補に絞り、OpenRouter で A/B ルートしてください。
| モデル | 日常 | コード | 長文 | 推論 | MM | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5 | 5 | 5 | 5 | — | 5 |
| Hy3 Preview | 4 | 5 | 5 | 5 | — | 5 |
| Claude Opus 4.7 | 4 | 5 | 5 | 5 | 5 | 5 |
| Claude Sonnet 4.6 | 5 | 4 | 5 | 4 | 4 | 4 |
| Owl Alpha | 3 | 4 | 4 | 4 | — | 5 |
| Gemini 3 Flash | 5 | 5 | 5 | 4 | 5 | 5 |
| Kimi K2.6 | 4 | 5 | 4 | 4 | 4 | 5 |
| Nemotron 3 Super | 4 | 4 | 5 | 4 | — | 5 |
トレンド1:1M Token が標準。 DeepSeek V4、Claude Opus 4.7、Owl Alpha、Gemini 3 Flash、Nemotron 3 Super が 1M 級。全 repo・長契約・数週の会話を一度に入れられ、一部では RAG より「丸ごと投入」が勝ちます — KV と帯域が MoE とキャッシュ割引を迫ります。
トレンド2:中国 OSS のグローバル化。 Top10 で DeepSeek 3席、Hy3、Kimi など。成長はしばしば 700% 超。MIT/Apache 系は自ホストと OpenRouter の二刀流を楽にします。
トレンド3:Agent 指標が対話スコアを置き換え。 SWE-bench Verified、Terminal-Bench 2.0 が新ゴールド。Kimi K2.6 の Agent Swarm(最大約300サブエージェント、4000ステップ調整)は「編成力」の競争軸です。
トレンド4:MoE の全面勝利。 稠密超大はレア。Nemotron は Mamba + Transformer ハイブリッド で同級120B比 ~2.2× スループットを主張。総パラメータ≠推論コストです。
トレンド5:完全無料が価格を再編。 Owl Alpha は in/out $0。Nemotron 3 Super free は OSS で自ホスト可。商用クローズドは無料層強化か値下げ — Stealth 無料はデータ政策のトレードオフがつきます。
トレンド6:マルチモーダルが必須に。 Gemini 3 Flash は画像音声動画 PDF。Claude Opus 4.7 は高解像 vision。純テキストは検索・OCR・UI スクショで周縁化しつつあります。
メモ: Mac で ds4 により DeepSeek V4 Flash をローカル Metal 実行している場合、API ランキングとローカル推論は補完関係です。クラウドルートのコストと、データを外に出さない 96GB+ 門番は別問題です。
6ステップ実装:タスク像から多モデルルートとクラウド Mac 常駐へ
タスク像を書く:対話的コーディング、バッチ要約、30分超の長時間 Agent、マルチモーダル文書、PII/ソース含有の有無。類ごとにモデルとデータ方針を分けます。
ルート行列:例 — 既定 DeepSeek V4 Flash、大規模リファクタ Opus 4.7、MM は Gemini 3 Flash、原型 Owl Alpha。OpenRouter の model またはアプリ層 switch で全員 Sonnet を避けます。
予算とサーキットブレーカ:百万 Token 単価×日次呼び出し。日次上限、Key 限速。Think/Max 推論档は別監視です。
機密境界:無料 Stealth に顧客データを載せない。本番は企業契約または Hy3 / Nemotron 自ホスト。ログマスキングと地域要件を ADR に。
Agent 編成:Kimi 型 Swarm や OpenClaw 多チャネルでツールタイムアウト、リトライ、迷子時のフォールバック(Sonnet または V4 Flash)を定義します。
チームが最も飛ばすのはステップ4と6です。4を飛ばすと無料モデルに repo 断片が漏れ、6を飛ばすと「API は正しいのに夜間 Agent が死ぬ」状態になります。OpenRouter はモデル供給まで。実行の信頼性はクラウド Mac レンタルと交差します。
引用データ・価格アンカー・KVMNODE クラウド Mac 選定
効率(DeepSeek V4 Flash 公式):1M ctx で単 Token FLOPs は V3.2 の 10%、KV 7% — 呼び出し爆発の説明になります。
Agent コーディング(公開ベンチ):Gemini 3 Flash SWE-bench Verified 約 78%;Hy3 約 74.4% / Terminal-Bench 2.0 約 54.4% — MMLU 単独よりこちらを見てください。
価格アンカ(API 公示、要リアルタイム確認):DeepSeek V4 Flash 約 $0.10/$0.40(百万 in/out);Opus 4.7 $5/$25;Sonnet 4.6 $3/$15;Owl Alpha $0/$0;Gemini 3 Flash $0.50/$3.00 — 同一タスクで Opus と V4 Flash は桁が違います。
| ランタイム | 多モデル API + Agent | 弱点 | KVMNODE cloud Mac |
|---|---|---|---|
| ローカル MacBook | 設定は速い · スリープで停止 | 7×24 不可 · OS更新 | 本番 Agent に不向き |
| Linux VPS のみ | CLI は安い | Xcode/Metal なし | iOS CI が弱い |
| cloud Mac Mini M4 | launchd + OpenRouter Key | 租期・スナップショット設計 | Agent + モバイル開発に強い |
無料1本は品質とコンプラで壁に、Opus だけは高頻度 Agent で請求爆発、ノートだけではランキングがどうでも 7×24 になりません。Apple Silicon、SSH 引き継ぎ、OpenRouter で Cursor / Claude Code / OpenClaw を階層化するチームには、KVMNODE 専用 Mac Mini M4 / M4 Pro が安定しやすいです。OpenClaw 常駐、リージョンガイド と整合。料金、注文 で今週中にスタックをノートから移せます。