Pourquoi la facture hebdo bat les benchmarks — six modules
OpenRouter publie des volumes hebdomadaires par modele et region — agreges depuis de vrais appels API, pas des communiques. Contrairement a MMLU ou HumanEval, cette serie mesure ce que les equipes paient sous charge : boucles agent, tool calls, contexte million et jobs CI paralleles. Une semaine calendaire capture l elan sans le bruit d une journee.
Mi-2026, deux camps : ceux qui choisissent un modele sur un score labo, et ceux qui comparent chaque lundi la semaine OpenRouter a leur facture. Le second bascule plus vite d Opus vers V4 Flash quand les boucles agent font exploser la courbe dollars — sans perte sur les taches routinieres.
Vote portefeuille vs score labo : chaque token route coute de l argent ou du quota. Le classement reflete la prod, pas un prompt unique.
Delta hebdo = momentum : +7.4 % global semaine sur semaine signale l adoption agent — les graphiques mensuels cachent l acceleration.
Part tokens n est pas part dollars : Anthropic 12 % tokens vs 46 % revenu prouve que le prix premium domine le budget.
Poids regionaux : Chine 9.223T vs USA 4.93T — routage, latence et RGPD doivent suivre la geographie reelle.
Boucles agent gonflent le volume : un swarm 40 etapes produit plus qu un chat — le hebdo favorise les modeles au output token bon marche.
Gratuit deforme le classement : Owl Alpha et routes $0 apparaissent mais posent risque donnees — separez prototype et prod.
En bref : la facture ne ment pas car elle mesure le cout d opportunite. L ignorer, c est optimiser sur de mauvais modeles puis s etonner de l OpEx malgre un « bon » MMLU.
28.9T global : ecart Chine–USA et croissance +7.4 %
La semaine 18–24 mai 2026 totalise 28.9 billions de tokens — hausse de 7.4 % vs la semaine precedente. Ce n est pas un pic saisonnier : Cursor Background Agents, Claude Code et OpenClaw Gateway tournent de plus en plus en continu ; chaque nuit genere des tokens sans saisie humaine.
Chine : 9.223T (~32 % global). Moteurs : DeepSeek V4 Flash, Tencent Hy3, Kimi, prix bas et base dev locale forte. USA : 4.93T (~17 %) — Claude Opus/Sonnet pour refactors enterprise, Gemini pour pipelines multimodaux Google, routes GPT legacy. Europe et reste partagent le residuel — sensible au RGPD car sous-fournisseurs OpenRouter sont souvent US ou APAC.
| Region | Tokens semaine | Part globale | Workloads typiques |
|---|---|---|---|
| Global | 28.9T | 100 % | Agent coding, batch summary, RAG |
| Chine | 9.223T | ~32 % | DeepSeek/Hy3 default, OSS self-host + API |
| USA | 4.93T | ~17 % | Claude premium, Gemini multimodal, GPT legacy |
| Reste / UE | ~14.7T | ~51 % | Routage mixte, hybrides RGPD |
Pour un Tech Lead : un modele default global convient rarement. Equipes avec donnees clients UE doivent verifier chaque semaine si les poids Chine–USA correspondent a leur politique — ou si elles consomment des routes US premium pour du bulk. Les +7.4 % WoW alertent sur le budget : CapEx Mac et OpEx API ne scalent pas lineairement avec les agents paralleles.
La croissance des tokens sans discipline hebdo de routage est une bombe OpEx — la facture arrive avant le prochain benchmark.
Top 10 de la semaine et paradoxe Anthropic
Classement modeles 18–24 mai 2026 (statistiques hebdo OpenRouter). Chiffres agreges plateforme ; rangs bougent, la forme — MoE chinois devant, Claude en niche premium, prototypage gratuit — reste stable depuis T2 2026.
| Rang | Modele | Editeur | Tokens semaine | Role |
|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 3.43T | Default agent/coding, 1M ctx, $/M bas |
| 2 | Hy3 | Tencent | 3.07T | MoE OSS, STEM/agent, self-host + API |
| 3 | Claude Sonnet 4.6 | Anthropic | 1.35T | Premium equilibre, refactors longs |
| 4 | Claude Opus 4.7 | Anthropic | 1.08T | Raisonnement dur, flux vision |
| 5 | Owl Alpha | OpenRouter | 0.92T | Prototype $0, agent-tuned, risque stealth |
| 6 | Gemini 3 Flash | 0.81T | Multimodal, stack Google | |
| 7 | DeepSeek V3.2 | DeepSeek | 0.76T | Route legacy, migration V4 Flash |
| 8 | Kimi K2.6 | Moonshot | 0.68T | Agent swarm, longue orchestration |
| 9 | Nemotron 3 Super | NVIDIA | 0.54T | Free/self-host, hybrid Mamba-MoE |
| 10 | GPT-4o | OpenAI | 0.47T | Enterprise legacy, remplacement progressif |
DeepSeek total : 5.74T (V4 Flash + V3.2 + variantes) — pres de 20 % du volume hebdo global via un seul editeur. Cursor, OpenClaw et OpenCode placent V4 Flash par defaut : a des millions de tokens input par jour, un output bon marche bat des points MMLU marginaux.
Paradoxe Anthropic : seulement 12 % des tokens, mais 46 % des dollars sur OpenRouter. Sonnet et Opus coutent un multiple de V4 Flash — les equipes paient le premium pour refactors lourds et flux sensibles, routent le bulk via DeepSeek. Lire seulement tokens sous-estime le revenu Anthropic ; lire seulement dollars ignore que les modeles bon marche poussent le +7.4 %.
Cote RGPD : modeles stealth gratuits (Owl Alpha) et routes US premium peuvent traiter des prompts hors UE. Documentez contrats art. 28 avec OpenRouter et sous-traitants ; transferts tiers dans la revue hebdo, pas en note de bas de page.
Hy3 a 3.07T confirme la tendance MoE OSS chinois : STEM-agents et self-host en parallele API. Kimi K2.6 et Nemotron 3 Super couvrent swarm et experimentations gratuites sans dominer le dollar.
Six etapes : suivre la semaine OpenRouter et ajuster le routage
Capturer la baseline : chaque lundi exporter stats hebdo OpenRouter ; global, region, Top 10 et votre facture — ecart >15 % a investiguer.
Separer tokens et dollars : prix input/output par modele fois volume hebdo ; rendre visible le paradoxe Anthropic en dashboard interne.
Fit regional : modeles Chine pour bulk ; premium US pour PII/refactor ; self-host UE si RGPD s applique.
Mettre a jour la matrice : default V4 Flash ; Sonnet pour PRs dures ; Hy3 pour swarms STEM ; Owl sandbox seulement — via champ model OpenRouter.
Circuit breaker : plafond journalier par cle, alerte WoW +20 % ; modes Think/Max monitorés a part — les boucles agent escaladent vite.
Provisionner un hote 7x24 : revue hebdo inutile si l agent dort. Cursor, Claude Code, OpenClaw sur Mac cloud dedie avec launchd et Keychain. Tarifs location, Centre d aide, Commander.
Erreur classique : etapes 1–5 en tableur, etape 6 sur le portable du lead. OpenRouter optimise le cout modele ; la fiabilite runtime est votre infra. Synchroniser les deux chaque semaine repond au +7.4 % par routage, pas par panique d achat.
Trois chiffres citables et Mac cloud KVMNODE
Global WoW (OpenRouter, 18–24 mai 2026) : 28.9T tokens, +7.4 % — adoption agent accelere ; budgets trimestriels suffisent rarement.
Part hebdo DeepSeek : 5.74T total (~20 % global) — V4 Flash 3.43T mene seul ; MoE OSS bon marche domine le volume.
Split Anthropic token/dollar : 12 % tokens, 46 % dollars — prix premium tire le revenu ; le bulk doit rester sur modeles economiques.
| Runtime | Suivi hebdo OpenRouter | Faiblesse | Mac cloud KVMNODE |
|---|---|---|---|
| MacBook local | check dashboard rapide | veille stoppe l agent la nuit | faible pour 7x24 + routine review |
| VPS Linux | bon pour CLI seul | pas Xcode/Metal/Keychain | faible pour agents stack Apple |
| Mac Mini M4 cloud | launchd + cles OpenRouter + snapshot | planifier la location | fort pour agent + CI hebdo |
Lire seulement le classement : rater le paradoxe dollar. Tout Opus : facture explose avec +7.4 % WoW. Portable seul : discipline hebdo casse. Equipes Apple Silicon, SSH et OpenRouter echelonne pour Cursor, Claude Code, OpenClaw gagnent avec un Mac Mini M4/M4 Pro dedie KVMNODE : datacenter sans veille, location flexible, aligne avec OpenClaw persistant et Agent Skills. Donnees perso dans pipelines agent : location cloud documentee facilite RGPD vs BYOD.
Achats : une journee senior debuggee pour host endormi depasse souvent un mois de M4. Facture API et location Mac ensemble — la semaine 18–24 mai prouve que les tokens croissent plus vite que les benchmarks ; l infra doit suivre.