Pourquoi suivre OpenRouter en 2026 plutot que MMLU seul
OpenRouter agrege des centaines de modeles (Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA, etc.) derriere une API unique. Le classement trie par volume reel de tokens appeles : ce que les developpeurs paient et routent en boucle. MMLU ou HumanEval mesurent une passe en laboratoire ; ici c est le vote du portefeuille en production. Mi-2026, l ecart se creuse : la com communique sur le dialogue, mais le sommet des appels va souvent aux routes agents de code, outils et RAG a tres long contexte au meilleur rapport cout/latence.
Stats OpenRouter et veille communautaire (juin 2026, captures utilisateurs) montrent cinq signaux : modeles open source chinois occupent la moitie du Top 10 avec des croissances a trois chiffres ; 1M tokens de contexte devient la norme ; le MoE remplace les geants denses ; des modeles 100 % gratuits (Owl Alpha, Nemotron 3 Super free) attirent etudiants et indies ; le multimodal reste le territoire de Gemini et Claude en entreprise. Budgeter comme en 2024 un seul flagship ferme expose a une double peine en juin : facture API et agents nocturnes instables.
Benchmarks seuls : un bon SWE-bench ne predit pas votre courbe de cout si vous lisez des depots entiers a haute frequence.
Religion du modele unique : interdire le changement de route fait payer Sonnet pour du batch — explosion mensuelle.
Compliance du gratuit : Owl Alpha et Stealth peuvent conserver les prompts — mauvais routage de code client.
API en ligne, hote offline : portable en veille tue OpenClaw / Claude Code — le classement ne restaure pas la runtime.
Illusion 200K : un tour d agent remplit diffs, logs et reponses d outils — il faut 1M ou du cache.
Nous traitons le Top 10 comme boussole de routage, pas reponse « un modele pour tout ». Le « meilleur » depend du profil : redaction, code type issue GitHub, essaim 12 h, debit on-prem. En UE, croisez le classement avec RGPD, sous-traitance et liste blanche modeles dans les contrats clients : le ranking montre ce que les devs paient, pas ce qui est autorise chez vous.
Chaque trimestre, comparez tableau de bord OpenRouter et factures internes : 80 % du trafic sur DeepSeek V4 Flash avec un achat verrouille sur Claude est une erreur d approvisionnement. Benchmark eleve, peu d appels OpenRouter signifie souvent « fort en labo, cher ou dur en prod » — pas une route par defaut.
Pour les traitements soumis au RGPD, documentez transferts hors UE/EEE, role d OpenRouter et des sous-providers, et si les modeles Stealth gratuits comptent comme sous-traitants. Le gratuit legal n existe presque jamais : on echange souvent des donnees contre de l inference. Un registre des activites de traitement doit mentionner les bascules de modele via OpenRouter.
Top 10 OpenRouter, juin 2026 : volume, tendance, positionnement
Tableau synthetisant captures OpenRouter (juin 2026) et docs editeurs. Les tokens sont des ordres de grandeur plateforme ; les tendances sont periodiques. La structure — MoE chinois en tete, Claude premium, Google multimodal — tient en premiere moitie 2026.
| Rang | Modele | Editeur | Volume (env.) | Tendance | Position |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10.9T | 995% | 1M ctx · MoE 284B/13B act · rapport Agent/API |
| 2 | Hy3 Preview | Tencent | 10.7T | >999% | MoE OSS · Agent/STEM · +40 % efficacite |
| 3 | Claude Opus 4.7 | Anthropic | 7.48T | 197% | flagship · vision · agents longs |
| 4 | Claude Sonnet 4.6 | Anthropic | 7.45T | 34% | production · ~1,7x moins cher qu Opus |
| 5 | Owl Alpha | OpenRouter | 5.03T | >999% | $0 · 1,05M ctx · Agent |
| 6 | Gemini 3 Flash Preview | 4.6T | 3% | multimodal · faible latence · SWE-bench ~78 % | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4.54T | 739% | MoE 1,6T · raisonnement/code lourd |
| 8 | DeepSeek V3.2 | DeepSeek | 4.31T | -14% | generation precedente |
| 9 | Kimi K2.6 | Moonshot | 3.72T | 1% | 1T MoE · Agent Swarm · OSS |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2.65T | 3% | gratuit OSS · Mamba+Transformer |
DeepSeek V4 Flash en tete : sur 1M de contexte, la doc cite ~10 % des FLOPs/token vs V3.2 et ~7 % de KV, plus des prix API tres bas — route par defaut dans Cursor, OpenClaw, OpenCode pour « lire tout le repo et appeler les outils ». Hy3 Preview (Hunyuan 3, 295B / 21B actifs) sert cloud prive et agents STEM (~74,4 % SWE-bench Verified).
Les modeles fermes occidentaux tiennent : Claude Opus 4.7 pour ingenierie lourde et vision ; Gemini 3 Flash pour l ecosysteme Google. Owl Alpha et Nemotron 3 Super (free) illustrent le prototypage gratuit puis le payant qualitatif — logique « commutateur multi-modeles » d OpenRouter.
Le classement repond « que utilisent les autres », pas « que devez-vous utiliser seul ». La production exige un routage en couches.
Six dimensions et six tendances 2026
Echelle 1–5 (relative) : quotidien, code, long document, raisonnement, multimodal, agent. Deux ou trois candidats, puis A/B sur OpenRouter.
| Modele | Quotidien | Code | Long | Raisonn. | MM | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5 | 5 | 5 | 5 | — | 5 |
| Hy3 Preview | 4 | 5 | 5 | 5 | — | 5 |
| Claude Opus 4.7 | 4 | 5 | 5 | 5 | 5 | 5 |
| Claude Sonnet 4.6 | 5 | 4 | 5 | 4 | 4 | 4 |
| Owl Alpha | 3 | 4 | 4 | 4 | — | 5 |
| Gemini 3 Flash | 5 | 5 | 5 | 4 | 5 | 5 |
| Kimi K2.6 | 4 | 5 | 4 | 4 | 4 | 5 |
| Nemotron 3 Super | 4 | 4 | 5 | 4 | — | 5 |
Tendance 1 — 1M tokens standard : tout le depot ou le contrat dans un prompt ; le RAG recule parfois face au « tout injecter ». Cout KV pousse MoE et remises cache.
Tendance 2 — OSS chinois global : DeepSeek (trois places), Hy3, Kimi — croissance souvent > 700 %. Licences MIT/Apache facilitent self-host + OpenRouter.
Tendance 3 — metriques agent : SWE-bench Verified, Terminal-Bench 2.0 ; Kimi K2.6 Agent Swarm (~300 sous-agents, 4000 etapes) mesure l orchestration.
Tendance 4 — MoE partout : Nemotron Mamba + Transformer, debit ~2,2x vs classe 120B annonce. Parametres totaux ne egalent pas cout d inference.
Tendance 5 — gratuit qui refait les prix : Owl Alpha 0 $ ; Nemotron self-hostable. Le ferme repond par des free tiers — souvent avec usage des donnees.
Tendance 6 — multimodal obligatoire : Gemini image/audio/video/PDF ; Opus vision haute resolution. Texte seul recule sur OCR et captures UI.
Cote RGPD, self-host Hy3 ou Nemotron sur Mac loue dans l UE peut limiter les transferts si aucune route Stealth ne voit les donnees clients. Contrats art. 28 avec OpenRouter et clauses pays tiers a integrer dans l architecture, pas en note de bas de page.
Note : ds4 en local pour DeepSeek V4 Flash complete le routage cloud : cout API vs donnees restant sur machine 96 Go+.
Six etapes : profil de tache, matrice de routage, Mac cloud 7x24
Profil : code interactif, resumes batch, agent > 30 min, multimodal, PII/code — modele et politique donnees par classe.
Matrice : defaut DeepSeek V4 Flash ; refactor lourd Opus 4.7 ; multimodal Gemini 3 Flash ; prototype Owl Alpha — champ model OpenRouter ou switch applicatif.
Budget et disjoncteur : prix par million de tokens fois volume journalier ; plafonds, limites de cle ; paliers Think/Max suivis a part.
Donnees sensibles : pas de donnees client sur Stealth gratuit ; prod : contrat entreprise ou Hy3/Nemotron self-host ; logs masques ; ADR RGPD avec region et retention.
Orchestration : essaim Kimi ou canaux OpenClaw : timeout outils, retry, repli Sonnet ou V4 Flash si perte de fil.
Hote 7x24 : migrer Cursor, Claude Code, OpenClaw vers Mac cloud dedie : launchd, SSH fixe, Keychain. tarifs, centre d aide pour M4 / M4 Pro / RAM.
Les etapes 4 et 6 sont souvent sautees — fuite via modeles gratuits ou « API correcte, agent mort la nuit ». OpenRouter fournit les modeles, pas la fiabilite d execution ; la location Mac cloud comble l ecart.
Equipes securite : quelles cles sur portables partages ? Les agents CLI meritent le meme rigueur que les secrets CI — y compris analyse d impact si donnees personnelles dans les prompts.
Chiffres citables, prix, choix Mac cloud KVMNODE
Efficacite DeepSeek V4 Flash : 1M ctx : FLOPs ~10 % de V3.2, KV ~7 %.
Code agent : Gemini 3 Flash SWE-bench ~78 % ; Hy3 ~74,4 %, Terminal-Bench 2.0 ~54,4 %.
Prix API (verifier en direct) : V4 Flash ~0,10 / 0,40 $ par million ; Opus 4.7 5 / 25 $ ; Sonnet 3 / 15 $ ; Owl 0 / 0 $ ; Gemini 3 Flash 0,50 / 3,00 $ — un ordre de grandeur d ecart possible vs Opus.
| Runtime | API multi-modeles + agent | Limite | Mac cloud KVMNODE |
|---|---|---|---|
| MacBook local | rapide a configurer ; veille coupe | pas de 7x24 | faible en prod agent |
| VPS Linux seul | CLI economique | pas Xcode/Metal | CI iOS faible |
| Mac Mini M4 cloud | launchd + cles OpenRouter | planifier location/snapshot | fort pour agents + stack Apple |
Un seul modele gratuit : mur qualite et RGPD. Opus seul : facture folle en boucles agent. Portable seul : pas de 7x24 malgre le classement. Avec Apple Silicon, passation SSH et routage etage OpenRouter pour Cursor, Claude Code, OpenClaw, un Mac Mini M4 / M4 Pro dedie KVMNODE est souvent plus stable : datacenter sans veille, location flexible, aligne avec OpenClaw persistant et guide six regions. tarifs, commander — migrer la stack cette semaine hors du canape.
Achats : additionner dollars API et location Mac ; une journee senior perdue sur host endormi depasse souvent un mois de petit M4. BYOK sur Mac stable est planifiable ; quotas bundlees d un editeur CLI non — lecon parallele au debat Gemini CLI de juin 2026, complementaire a la flexibilite OpenRouter.