Si vous alternez chaque semaine entre Claude, DeepSeek et Hy3 en ne lisant que des captures MMLU, vous ratez la verite : les donnees de facturation OpenRouter pour la semaine du 18 au 24 mai 2026. 28.9 billions de tokens (+7.4 %) global, Chine 9.223T, USA 4.93T ; tete : DeepSeek V4 Flash 3.43T, Hy3 3.07T, Claude Sonnet 4.6 1.35T ; DeepSeek total 5.74T, Anthropic 12 % tokens mais 46 % dollars. Six modules, tableau Top 10, six etapes de suivi hebdo, trois chiffres citables et RGPD. Complement de classement juin et ds4 local ; pour agents 7x24 : Mac cloud KVMNODE.
01

Pourquoi la facture hebdo bat les benchmarks — six modules

OpenRouter publie des volumes hebdomadaires par modele et region — agreges depuis de vrais appels API, pas des communiques. Contrairement a MMLU ou HumanEval, cette serie mesure ce que les equipes paient sous charge : boucles agent, tool calls, contexte million et jobs CI paralleles. Une semaine calendaire capture l elan sans le bruit d une journee.

Mi-2026, deux camps : ceux qui choisissent un modele sur un score labo, et ceux qui comparent chaque lundi la semaine OpenRouter a leur facture. Le second bascule plus vite d Opus vers V4 Flash quand les boucles agent font exploser la courbe dollars — sans perte sur les taches routinieres.

01

Vote portefeuille vs score labo : chaque token route coute de l argent ou du quota. Le classement reflete la prod, pas un prompt unique.

02

Delta hebdo = momentum : +7.4 % global semaine sur semaine signale l adoption agent — les graphiques mensuels cachent l acceleration.

03

Part tokens n est pas part dollars : Anthropic 12 % tokens vs 46 % revenu prouve que le prix premium domine le budget.

04

Poids regionaux : Chine 9.223T vs USA 4.93T — routage, latence et RGPD doivent suivre la geographie reelle.

05

Boucles agent gonflent le volume : un swarm 40 etapes produit plus qu un chat — le hebdo favorise les modeles au output token bon marche.

06

Gratuit deforme le classement : Owl Alpha et routes $0 apparaissent mais posent risque donnees — separez prototype et prod.

En bref : la facture ne ment pas car elle mesure le cout d opportunite. L ignorer, c est optimiser sur de mauvais modeles puis s etonner de l OpEx malgre un « bon » MMLU.

02

28.9T global : ecart Chine–USA et croissance +7.4 %

La semaine 18–24 mai 2026 totalise 28.9 billions de tokens — hausse de 7.4 % vs la semaine precedente. Ce n est pas un pic saisonnier : Cursor Background Agents, Claude Code et OpenClaw Gateway tournent de plus en plus en continu ; chaque nuit genere des tokens sans saisie humaine.

Chine : 9.223T (~32 % global). Moteurs : DeepSeek V4 Flash, Tencent Hy3, Kimi, prix bas et base dev locale forte. USA : 4.93T (~17 %) — Claude Opus/Sonnet pour refactors enterprise, Gemini pour pipelines multimodaux Google, routes GPT legacy. Europe et reste partagent le residuel — sensible au RGPD car sous-fournisseurs OpenRouter sont souvent US ou APAC.

RegionTokens semainePart globaleWorkloads typiques
Global28.9T100 %Agent coding, batch summary, RAG
Chine9.223T~32 %DeepSeek/Hy3 default, OSS self-host + API
USA4.93T~17 %Claude premium, Gemini multimodal, GPT legacy
Reste / UE~14.7T~51 %Routage mixte, hybrides RGPD

Pour un Tech Lead : un modele default global convient rarement. Equipes avec donnees clients UE doivent verifier chaque semaine si les poids Chine–USA correspondent a leur politique — ou si elles consomment des routes US premium pour du bulk. Les +7.4 % WoW alertent sur le budget : CapEx Mac et OpEx API ne scalent pas lineairement avec les agents paralleles.

La croissance des tokens sans discipline hebdo de routage est une bombe OpEx — la facture arrive avant le prochain benchmark.

03

Top 10 de la semaine et paradoxe Anthropic

Classement modeles 18–24 mai 2026 (statistiques hebdo OpenRouter). Chiffres agreges plateforme ; rangs bougent, la forme — MoE chinois devant, Claude en niche premium, prototypage gratuit — reste stable depuis T2 2026.

RangModeleEditeurTokens semaineRole
1DeepSeek V4 FlashDeepSeek3.43TDefault agent/coding, 1M ctx, $/M bas
2Hy3Tencent3.07TMoE OSS, STEM/agent, self-host + API
3Claude Sonnet 4.6Anthropic1.35TPremium equilibre, refactors longs
4Claude Opus 4.7Anthropic1.08TRaisonnement dur, flux vision
5Owl AlphaOpenRouter0.92TPrototype $0, agent-tuned, risque stealth
6Gemini 3 FlashGoogle0.81TMultimodal, stack Google
7DeepSeek V3.2DeepSeek0.76TRoute legacy, migration V4 Flash
8Kimi K2.6Moonshot0.68TAgent swarm, longue orchestration
9Nemotron 3 SuperNVIDIA0.54TFree/self-host, hybrid Mamba-MoE
10GPT-4oOpenAI0.47TEnterprise legacy, remplacement progressif

DeepSeek total : 5.74T (V4 Flash + V3.2 + variantes) — pres de 20 % du volume hebdo global via un seul editeur. Cursor, OpenClaw et OpenCode placent V4 Flash par defaut : a des millions de tokens input par jour, un output bon marche bat des points MMLU marginaux.

Paradoxe Anthropic : seulement 12 % des tokens, mais 46 % des dollars sur OpenRouter. Sonnet et Opus coutent un multiple de V4 Flash — les equipes paient le premium pour refactors lourds et flux sensibles, routent le bulk via DeepSeek. Lire seulement tokens sous-estime le revenu Anthropic ; lire seulement dollars ignore que les modeles bon marche poussent le +7.4 %.

Cote RGPD : modeles stealth gratuits (Owl Alpha) et routes US premium peuvent traiter des prompts hors UE. Documentez contrats art. 28 avec OpenRouter et sous-traitants ; transferts tiers dans la revue hebdo, pas en note de bas de page.

Hy3 a 3.07T confirme la tendance MoE OSS chinois : STEM-agents et self-host en parallele API. Kimi K2.6 et Nemotron 3 Super couvrent swarm et experimentations gratuites sans dominer le dollar.

04

Six etapes : suivre la semaine OpenRouter et ajuster le routage

01

Capturer la baseline : chaque lundi exporter stats hebdo OpenRouter ; global, region, Top 10 et votre facture — ecart >15 % a investiguer.

02

Separer tokens et dollars : prix input/output par modele fois volume hebdo ; rendre visible le paradoxe Anthropic en dashboard interne.

03

Fit regional : modeles Chine pour bulk ; premium US pour PII/refactor ; self-host UE si RGPD s applique.

04

Mettre a jour la matrice : default V4 Flash ; Sonnet pour PRs dures ; Hy3 pour swarms STEM ; Owl sandbox seulement — via champ model OpenRouter.

05

Circuit breaker : plafond journalier par cle, alerte WoW +20 % ; modes Think/Max monitorés a part — les boucles agent escaladent vite.

06

Provisionner un hote 7x24 : revue hebdo inutile si l agent dort. Cursor, Claude Code, OpenClaw sur Mac cloud dedie avec launchd et Keychain. Tarifs location, Centre d aide, Commander.

Erreur classique : etapes 1–5 en tableur, etape 6 sur le portable du lead. OpenRouter optimise le cout modele ; la fiabilite runtime est votre infra. Synchroniser les deux chaque semaine repond au +7.4 % par routage, pas par panique d achat.

05

Trois chiffres citables et Mac cloud KVMNODE

A

Global WoW (OpenRouter, 18–24 mai 2026) : 28.9T tokens, +7.4 % — adoption agent accelere ; budgets trimestriels suffisent rarement.

B

Part hebdo DeepSeek : 5.74T total (~20 % global) — V4 Flash 3.43T mene seul ; MoE OSS bon marche domine le volume.

C

Split Anthropic token/dollar : 12 % tokens, 46 % dollars — prix premium tire le revenu ; le bulk doit rester sur modeles economiques.

RuntimeSuivi hebdo OpenRouterFaiblesseMac cloud KVMNODE
MacBook localcheck dashboard rapideveille stoppe l agent la nuitfaible pour 7x24 + routine review
VPS Linuxbon pour CLI seulpas Xcode/Metal/Keychainfaible pour agents stack Apple
Mac Mini M4 cloudlaunchd + cles OpenRouter + snapshotplanifier la locationfort pour agent + CI hebdo

Lire seulement le classement : rater le paradoxe dollar. Tout Opus : facture explose avec +7.4 % WoW. Portable seul : discipline hebdo casse. Equipes Apple Silicon, SSH et OpenRouter echelonne pour Cursor, Claude Code, OpenClaw gagnent avec un Mac Mini M4/M4 Pro dedie KVMNODE : datacenter sans veille, location flexible, aligne avec OpenClaw persistant et Agent Skills. Donnees perso dans pipelines agent : location cloud documentee facilite RGPD vs BYOD.

Achats : une journee senior debuggee pour host endormi depasse souvent un mois de M4. Facture API et location Mac ensemble — la semaine 18–24 mai prouve que les tokens croissent plus vite que les benchmarks ; l infra doit suivre.