OpenRouter 週次ランキングと MMLU ベンチマークはなぜ逆方向に動くのですか？

a16z 等の分析では、ベンチマーク上位モデルと実際の Token 消費量に逆相関が見られます。開発者はコスパと Agent 安定性でルートするため、課金データが市場の真実を反映します。

Anthropic は Token 12% なのにドルシェア 46% なのはなぜですか？

Claude Opus/Sonnet は百万 Token 単価が DeepSeek V4 Flash より桁違いに高いため、呼び出し量は少なくても請求額は大きくなります。ルーティング設計で Sonnet を既定にすると月次請求が膨らみやすいです。

週次ランキングを見ても Agent ホストは別途必要ですか？

OpenRouter はモデル供給までです。Cursor、Claude Code、OpenClaw は 7×24 ホストが必要です。KVMNODE クラウド Mac レンタルでノート PC のスリープ問題を解消できます。

OpenRouter 週次Tokenランキング：課金データが語る市場の真実

ベンチマーク表の1位と、実際の API 請求が一致しないことに違和感を覚える開発者向けに、本稿は 2026年5月24日週の OpenRouter 週次 Token ランキングを軸に、全球 28.9T Token（+7.4%）、中国 9.223T、米国 4.93T の地域構造、Top10 モデル配置、DeepSeek 合計 5.74T、Anthropic Token 12% 対ドルシェア 46% の乖離、a16z 報告の ベンチマーク逆相関 を整理します。5つの課題、比較表、6ステップの課金ベースルーティング、引用可能な3データも示します。6月 OpenRouter 総合ガイド、ds4 ローカル推論と併読ください。

なぜ「課金データは嘘をつかない」のか — 週次ランキングの読み方

OpenRouter の週次 Token ランキングは、開発者が実際に API キーで呼び出し、課金した Token 総量でモデルを並べ替えます。MMLU や SWE-bench の静的スコアとは根本的に異なります。ベンチマークは「実験室の一回勝負」、週次ランキングは「ウォレットが選んだ結果」です。2026年5月24日週の全球規模 28.9T Token は前週比 +7.4% と、Agent 化が加速していることを示しています。

a16z の2026年分析では、ベンチマーク上位モデルと市場 Token 消費量の間に逆相関が観察されています。スコア表で1位のモデルほど、実際のルーティング量では後方に沈む傾向です。開発者は「最高スコア」ではなく「タスクあたりのコスパ」「Agent ループの安定性」「百万 Token 単価」で選ぶからです。週次データを見れば、中国発オープン MoE（DeepSeek、Hy3）が量を支配し、西洋クローズド（Anthropic、Google）は単価で収益を取る二層構造がはっきり見えます。

ベンチマーク盲信：リーダーボード1位を全タスクの既定にすると、高頻度 Agent ループで請求が爆発し、実流量は安価モデルに流れます。

Token 量とドル量の混同：Anthropic は Token シェア約12%でもドルシェア約46%。Sonnet を無差別既定にすると月次請求だけが膨らみます。

週次変動の無視：Top10 は週で入れ替わります。四半期に一度のベンチ更新では、5月24日週の Hy3 急伸や MiniMax 新参を見逃します。

地域バイアス：中国 9.223T と米国 4.93T の差は、モデル選好だけでなく規制・価格・自ホスト文化の差でもあります。

API 正解・ホスト不正：ルーティングは正しくても、ノート PC スリープで OpenClaw や Claude Code の夜間ジョブが止まり、課金データの示す最適解が実行されません。

週次ランキングは「今週、開発者のウォレットが何を選んだか」の真実です。以下では5月24日週の Top10 と地域構造を分解し、課金ベースのルーティング判断へつなげます。

2026年5月24日週 Top10：Token 量と一行定位

下表は OpenRouter 週次ランキング（週次終了日 2026年5月24日）の Token 呼び出し量です。前週比の順位変動はありますが、DeepSeek 系3モデルで合計 5.74T、中国 OSS MoE が量の中心、Claude Sonnet が西洋クローズドの量の柱という構造は明確です。

順位	モデル	組織	週次 Token	定位
1	DeepSeek V4 Flash	DeepSeek	3.43T	Agent/API コスパ王 · 1M ctx · MoE
2	Hy3 Preview	Tencent	3.07T	OSS MoE · STEM/Agent · 急成長
3	Claude Sonnet 4.6	Anthropic	1.35T	本番主力 · 高単価 · 西洋量の柱
4	DeepSeek V3.2	DeepSeek	1.31T	前世代 · V4 へ分流中
5	Owl Alpha	OpenRouter	1.15T	$0 ルート · Agent 原型 · Stealth 注意
6	Gemini 3 Flash	Google	1.06T	マルチモーダル · 低遅延 · 企業統合
7	DeepSeek V4 Pro	DeepSeek	1.00T	旗艦 MoE · 複雑推論/コード
8	MiniMax M2.7	MiniMax	806B	新参 · 中国発 · Agent 向け
9	Grok 4.1 Fast	xAI	721B	高速推論 · X 連携 · 実験向け
10	Step 3.5 Flash	StepFun	673B	軽量 Flash · 中国 OSS · コスパ

DeepSeek V4 Flash の3.43T は単独で Top10 合計の約12%に相当し、1位単独の支配力を示します。Hy3 Preview の3.07T は Tencent 混元3 OSS MoE の急伸で、自ホストと OpenRouter 二刀流の需要を反映しています。Claude Sonnet 4.6 は量では3位ですが、百万 Token 単価が V4 Flash より桁違いに高いため、ドルベースでは Anthropic 全体が約46%のシェアを占めます。Owl Alpha の1.15T は無料ルートの原型需要、MiniMax M2.7 と Step 3.5 Flash は中国発新参として Top10 に食い込みました。

週次 Token 量は「誰が使われているか」を示す。ドルシェアは「誰が儲かっているか」を示す。両方を見ないとルーティングは歪みます。

地域構造・DeepSeek 支配・ベンチ逆相関の6トレンド

5月24日週の地域別 Token 量は、中国 9.223T（全球の約32%）、米国 4.93T（約17%）です。中国は DeepSeek・Hy3・MiniMax・StepFun の OSS MoE エコシステムと、自ホスト文化が Token 量を押し上げています。米国は Anthropic・Google・xAI のクローズド API がドル収益の中心です。

DeepSeek 単体（V4 Flash + V3.2 + V4 Pro）の合計 5.74T は、全球28.9T の約20%に相当し、単一ベンダーとして最大の Token シェアです。一方 Anthropic は Token 量約12%でも、Opus/Sonnet の高単価によりドルシェア約46%を占めます。この Token/ドル乖離は、開発チームが Sonnet を全タスク既定にすると「量は少ないのに請求は最大」という逆説を生みます。

モデル	日常	コード	長文	推論	MM	Agent
DeepSeek V4 Flash	5	5	5	5	—	5
Hy3 Preview	4	5	5	5	—	5
Claude Sonnet 4.6	5	4	5	4	4	4
Owl Alpha	3	4	4	4	—	5
Gemini 3 Flash	5	5	5	4	5	5
DeepSeek V4 Pro	4	5	5	5	—	5
MiniMax M2.7	4	4	4	4	—	4
Grok 4.1 Fast	4	4	4	4	—	4

トレンド1 — ベンチ逆相関が常態化。 a16z 報告どおり、ベンチ上位と Token 量上位はしばしば逆方向。V4 Flash は SWE-bench で Opus より低くても、Agent ループのコスパで量1位です。

トレンド2 — Token/ドル二層構造。 量は中国 OSS、収益は西洋クローズド。ルーティング設計は「量の既定」と「品質の例外」を分離すべきです。

トレンド3 — 週次新参の台頭。 MiniMax M2.7、Step 3.5 Flash が Top10 に入り、四半期ベンチだけでは追えない速度で市場が動いています。

トレンド4 — 無料ルートの量。 Owl Alpha 1.15T は原型・学習需要。本番は有料ルートか自ホストへ。

トレンド5 — 地域最適化。 中国 9.223T は規制・価格・自ホストの複合。米国 4.93T はエンタープライズ契約と高単価 API の反映。

トレンド6 — Agent 化で Token 爆増。 全球 +7.4% は多段ツール呼び出しと長コンテキスト読み込みの結果。200K 前提の予算設計は破綻しやすいです。

注意： 週次データは OpenRouter 公開統計に基づきます。順位は毎週変動します。本番ルーティングは週次ダッシュボードと社内請求を突き合わせて更新してください。

6ステップ：課金データに基づく週次ルーティング更新

週次ダッシュボードを購読：OpenRouter Rankings を毎週確認し、Top10 変動（新参・急落）を ADR に記録。5月24日週の MiniMax 参入は見逃さない。

Token/ドル二軸で予算：量の既定は V4 Flash、品質例外は Sonnet/Opus。Anthropic Token 12%・ドル46% の乖離を踏まえ、高単価ルートにサーキットブレーカを設定。

ベンチではなく請求で A/B：a16z 逆相関を前提に、同一タスクを V4 Flash と Sonnet で並走し、品質差とドル差を計測。ベンチ1位より請求1/10 を優先。

地域とデータ境界：中国発 OSS は自ホスト併用可。Stealth 無料（Owl Alpha）に機密 repo を載せない。ログマスキングを ADR に。

Agent フォールバック：多段ツール呼び出しで迷子時は V4 Flash へ自動降格。Sonnet 固定は高頻度ループで請求爆発の原因。

7×24 ホストを確保：Cursor、Claude Code、OpenClaw を専用クラウド Mac へ。launchd、Keychain、固定 SSH。料金ページ、ヘルプセンター、注文入口で M4 Pro 24GB を週次レンタル。

六ステップで最も多い失敗は、週次ランキングを見ても Sonnet 既定を変えないことと、API ルートだけ整えてホストがスリープすることです。課金データの示す最適解は、7×24 実行環境がなければ紙の上に留まります。

引用データ・比較表・KVMNODE クラウド Mac 選定

全球規模（5月24日週）： OpenRouter 週次 Token 総量 28.9T、前週比 +7.4%。中国 9.223T、米国 4.93T（出典：OpenRouter 週次統計 2026年5月）。

DeepSeek 支配（同週）： V4 Flash 3.43T + V3.2 1.31T + V4 Pro 1.00T = 合計 5.74T。単一ベンダーで全球約20%の Token シェア（出典：OpenRouter Top10 集計）。

Token/ドル乖離（a16z 2026）： Anthropic Token シェア約 12%、ドルシェア約 46%。ベンチ上位と Token 量の逆相関が構造的に観察（出典：a16z State of AI 2026）。

ランタイム	週次ルーティング更新	弱点	KVMNODE cloud Mac
ローカル MacBook	設定は速い	スリープで Agent 停止	週次最適解が実行されない
Linux VPS	CLI は安い	Xcode/Keychain なし	Apple ツールチェーン不可
cloud Mac Mini M4	launchd + OpenRouter Key	租期設計が要る	7×24 Agent + 週次ルート更新に最適

代替案を並べると、ベンチ1位だけ見ると a16z 逆相関を無視して請求が膨らみ、Sonnet 無差別既定は Token 12%・ドル46% の罠に落ち、ノートだけでは週次ランキングの示す V4 Flash 既定が夜間に止まります。Apple Silicon、OpenRouter 階層ルーティング、Cursor / Claude Code / OpenClaw を7×24 運用するチームには、KVMNODE 専用 Mac Mini M4 / M4 Pro レンタルが合理的です。OpenClaw 常駐、六区選定と整合。料金、注文で今週のルーティング更新と実行環境を同時に整えられます。

ブログ一覧へ今すぐレンタル