Warum 2026 das OpenRouter-Ranking zaehlt — nicht nur MMLU
OpenRouter buendelt Hunderte Modelle von Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA und anderen hinter einer API. Die Rangliste sortiert nach aktuellen realen Token-Volumina: Wer Entwickler wiederholt bezahlen und routen, steht oben. Das ist etwas anderes als MMLU oder HumanEval, wo ein Labor einmal misst. Mitte 2026 vergroessert sich die Luecke: Presse betont Dialogqualitaet, die Spitze der Aufrufe liegt oft bei Agent-Coding, Tool-Use und RAG mit sehr langem Kontext, wo Preis pro Million Token und Latenz entscheiden.
Aus OpenRouter-Statistiken und Community-Monitoring (Juni 2026, Nutzer-Screenshots) ergeben sich fuenf Signale: chinesische Open-Source-Modelle fuellen die Haelfte der Top 10 mit Wachstumsraten im dreistelligen Prozentbereich; 1M Token Kontext ist Baseline; MoE ersetzt dichte Riesenmodelle; kostenlose Agent-Modelle (Owl Alpha, Nemotron 3 Super free) ziehen Studierende und Solo-Devs ab; Multimodalitaet bleibt bei Gemini und Claude im Enterprise. Wer Budgets noch wie 2024 nur um einen geschlossenen Flaggschiff-Preis plant, riskiert im Juni doppelte Verluste: Rechnung und instabile Nacht-Agenten.
Nur Benchmarks: Hohe SWE-bench-Werte helfen wenig, wenn Ihre Pipeline kleine, haeufige Jobs plus ganze Repos liest — Kostenkurve ist anders.
Single-Model-Dogma: Kein Routing-Wechsel: Coding und Batch laufen auf Sonnet-Preisen — Monatskosten explodieren.
Free-Tier-Compliance: Stealth-Modelle wie Owl Alpha koennen Prompts fuer Verbesserungen speichern — Fehlrouting von Quellcode wird zum Vorfall.
API online, Host offline: Zuklappender Laptop beendet OpenClaw- oder Claude-Code-Hintergrundjobs — kein Ranking rettet die Laufzeit.
Kontext-Illusion: 200K reichen oft nicht: ein Agent-Turn fuellt Diffs, Logs und Tool-Antworten — 1M oder Cache noetig.
Dieser Artikel nutzt die Top 10 als Routing-Kompass, nicht als Antwort «ein Modell fuer alles». «Staerkstes» Modell haengt vom Profil ab: Schreiben, Issue-Level-Coding, 12-Stunden-Swarm oder On-Prem-Durchsatz. EU-Teams sollten zusaetzlich DSGVO, Auftragsverarbeitung und Modell-Whitelist in Kundenvertraegen pruefen: Das Ranking zeigt, wofuer Entwickler zahlen — nicht automatisch, was in Deutschland erlaubt ist.
Vierteljaehrlich OpenRouter-Dashboard und interne Rechnungen abgleichen: 80 Prozent Traffic auf DeepSeek V4 Flash bei Vertrag nur fuer Claude ist ein Einkaufsfehler. Hoher Benchmark, kaum Aufrufe auf OpenRouter bedeutet oft «laborstark, produktion teuer oder schwer angebunden» — kein Default-Route.
Fuer DSGVO-relevante Workloads dokumentieren Sie, ob Prompts in die USA oder China fliessen, ob Stealth-Free-Modelle als Auftragsverarbeiter gelten und ob ein Verzeichnis von Verarbeitungstaetigkeiten den Modellwechsel per OpenRouter abbildet. Kostenlose Routen sind selten «kostenlos» in rechtlicher Hinsicht — sie tauschen oft Daten gegen Inference.
OpenRouter Top 10, Juni 2026: Volumen, Trend, Einzeiler
Die Tabelle fasst OpenRouter-Rankings-Screenshots (Juni 2026) und Herstellerdocs zusammen. Token-Zahlen sind Plattform-Naeherungen; Trends sind periodenbezogen. Woechentliche Schwankungen aendern Reihenfolgen, die Struktur — China-MoE vorne, Claude premium, Google multimodal — haelt sich 2026.
| Rang | Modell | Anbieter | Volumen (ca.) | Trend | Positionierung |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10.9T | 995% | 1M ctx · MoE 284B/13B act · Agent/API Preis-Leistung |
| 2 | Hy3 Preview | Tencent | 10.7T | >999% | OSS MoE · Agent/STEM · +40% Effizienz |
| 3 | Claude Opus 4.7 | Anthropic | 7.48T | 197% | Flaggschiff · Vision · lange Agenten |
| 4 | Claude Sonnet 4.6 | Anthropic | 7.45T | 34% | Produktion · ~1.7x guenstiger als Opus |
| 5 | Owl Alpha | OpenRouter | 5.03T | >999% | $0 · 1.05M ctx · Agent-tuned |
| 6 | Gemini 3 Flash Preview | 4.6T | 3% | Multimodal · niedrige Latenz · SWE-bench ~78% | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4.54T | 739% | 1.6T MoE · komplexe Reasoning/Code |
| 8 | DeepSeek V3.2 | DeepSeek | 4.31T | -14% | Vorgaenger · von V4 verdrängt |
| 9 | Kimi K2.6 | Moonshot | 3.72T | 1% | 1T MoE · Agent Swarm · OSS |
| 10 | Nemotron 3 Super (free) | NVIDIA | 2.65T | 3% | free OSS · Mamba+Transformer |
DeepSeek V4 Flash fuehrt: Bei 1M Kontext nennt DeepSeek ~10% FLOPs pro Token vs. V3.2 und ~7% KV — plus sehr niedrige API-Preise, daher Default in Cursor, OpenClaw, OpenCode fuer «viel Repo lesen, viele Tools». Hy3 Preview (Tencent Hunyuan 3, 295B/21B aktiv) bedient Private Cloud und STEM-Agenten mit SWE-bench Verified ~74.4%.
Geschlossene West-Modelle bleiben: Claude Opus 4.7 fuer schwere Software- und Vision-Pipelines; Gemini 3 Flash fuer Google-Oekosystem und Multimodal-Suche. Owl Alpha und Nemotron 3 Super (free) zeigen: 2026 prototypisieren Entwickler gratis, zahlen fuer Qualitaetspfad — OpenRouter als Multi-Model-Switch.
Das Ranking sagt «was alle nutzen», nicht «was nur Sie nutzen sollten». Produktion braucht gestuftes Routing.
Sechs Dimensionen und sechs Trends 2026
Skala 1–5 (relativ): Alltag, Code, Langdokument, Reasoning, Multimodal, Agent. Zwei bis drei Kandidaten, dann A/B auf OpenRouter.
| Modell | Alltag | Code | Lang | Reasoning | MM | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5 | 5 | 5 | 5 | — | 5 |
| Hy3 Preview | 4 | 5 | 5 | 5 | — | 5 |
| Claude Opus 4.7 | 4 | 5 | 5 | 5 | 5 | 5 |
| Claude Sonnet 4.6 | 5 | 4 | 5 | 4 | 4 | 4 |
| Owl Alpha | 3 | 4 | 4 | 4 | — | 5 |
| Gemini 3 Flash | 5 | 5 | 5 | 4 | 5 | 5 |
| Kimi K2.6 | 4 | 5 | 4 | 4 | 4 | 5 |
| Nemotron 3 Super | 4 | 4 | 5 | 4 | — | 5 |
Trend 1 — 1M Kontext Standard: DeepSeek V4, Opus 4.7, Owl Alpha, Gemini 3 Flash, Nemotron 3 Super. Ganze Codebases und Vertraege passen in einen Prompt; RAG verliert in Teilen gegen «alles rein». KV-Kosten treiben MoE und Cache-Rabatte.
Trend 2 — Chinesisches OSS global: DeepSeek (drei Plaetze), Hy3, Kimi — oft >700% Wachstum. MIT/Apache erleichtert Self-Host plus OpenRouter parallel.
Trend 3 — Agent-Metriken: SWE-bench Verified, Terminal-Bench 2.0. Kimi K2.6 Agent Swarm (~300 Sub-Agenten, 4000 Schritte) misst Orchestrierung.
Trend 4 — MoE dominiert: Nemotron mit Mamba + Transformer, ~2.2x Durchsatz vs. 120B-Klasse behauptet. Parameterzahl ist nicht Inference-Preis.
Trend 5 — Gratis reshaped Pricing: Owl Alpha $0/$0. Nemotron free self-hostable. Closed Source reagiert mit Free-Tiers — Stealth oft mit Datennutzung.
Trend 6 — Multimodal Pflicht: Gemini Bild/Audio/Video/PDF; Opus High-Res-Vision. Rein-Text verliert bei OCR und UI-Screenshots.
Unter DSGVO: Self-Host von Hy3 oder Nemotron auf einem gemieteten Mac in der EU kann Verarbeitung vereinfachen, wenn keine US-Stealth-Route Kundendaten sieht. Dokumentieren Sie AV-Vertraege mit OpenRouter und Sub-Providern; Art. 28 und Drittlandtransfer (Standardvertragsklauseln) gehoeren in die Architektur-Entscheidung, nicht nur in Legal-Fussnoten.
Hinweis: ds4 lokal fuer DeepSeek V4 Flash auf dem Mac ergaenzt Cloud-Routing: API-Kosten vs. Daten im eigenen Rechenzentrum ab 96 GB RAM.
Sechs Schritte: Task-Profil, Routing-Matrix, Cloud-Mac 7x24
Task-Profil: Interaktives Coding, Batch-Summary, Agent >30 Min, Multimodal, PII/Quellcode — je Klasse Modell und Datenregel.
Routing-Matrix: Default DeepSeek V4 Flash; Refactor Opus 4.7; Multimodal Gemini 3 Flash; Prototyp Owl Alpha — per OpenRouter model-Feld oder App-Switch.
Budget & Circuit Breaker: Preis pro Mio. Token mal Tagesvolumen; Tagesdeckel, Key-Rate-Limits; Think/Max separat monitoren.
Sensible Daten: Kein Kundencode auf Stealth-Free; Produktion: Enterprise-Vertrag oder Self-Host Hy3/Nemotron; Logs maskieren; DSGVO-ADR mit Region und Loeschfristen.
Agent-Orchestrierung: Kimi-Swarm oder OpenClaw: Tool-Timeout, Retry, Fallback bei «verloren» (Sonnet oder V4 Flash).
7x24 Host: Cursor, Claude Code, OpenClaw von Laptop auf dedizierten Cloud-Mac: launchd, SSH, Keychain. Mietpreise, Hilfezentrum fuer M4/M4 Pro/RAM.
Schritte 4 und 6 werden oft uebersprungen — Leak ueber Free-Modelle bzw. «API richtig, Agent nachts tot». OpenRouter liefert Modelle, nicht Laufzeit-Zuverlaessigkeit; hier schneidet Cloud-Mac-Miete ein.
Security-Teams: Welche Keys lagen auf Laptops? Wurden Produktions-SSH Keys Agent-Tools preisgegeben? Routing-Umstellung ist Chance, CLI-Agenten wie CI-Secrets zu behandeln — inklusive DPIA wenn personenbezogene Daten in Prompts landen.
Zitierbare Zahlen, Preise, KVMNODE Cloud Mac
Effizienz DeepSeek V4 Flash: 1M ctx: FLOPs ~10% von V3.2, KV ~7% — erklaert Ranking-Spitze.
Agent-Coding: Gemini 3 Flash SWE-bench ~78%; Hy3 ~74.4%, Terminal-Bench 2.0 ~54.4% — nicht nur MMLU.
API-Preise (live pruefen): V4 Flash ~$0.10/$0.40 pro Mio.; Opus 4.7 $5/$25; Sonnet $3/$15; Owl $0/$0; Gemini 3 Flash $0.50/$3.00 — Opus vs. Flash kann eine Zehnerpotenz sein.
| Runtime | Multi-Model API + Agent | Schwaeche | KVMNODE Cloud Mac |
|---|---|---|---|
| Lokales MacBook | schnell setup; Sleep stoppt | kein 7x24 | schlecht fuer Prod-Agenten |
| Linux VPS | guenstig CLI | kein Xcode/Metal | schwaches iOS-CI |
| Cloud Mac Mini M4 | launchd + OpenRouter Keys | Planung Miete/Snapshot | stark fuer Agent + Apple-Stack |
Nur Free-Modelle: Qualitaet und DSGVO kollidieren. Nur Opus: Rechnung explodiert bei haeufigen Agent-Loops. Nur Laptop: Ranking irrelevant fuer 7x24. Teams mit Apple Silicon, SSH-Uebergabe und gestaffeltem OpenRouter fuer Cursor, Claude Code, OpenClaw profitieren von KVMNODE dediziertem Mac Mini M4/M4 Pro: Rechenzentrum ohne Schlafmodus, flexible Miete, konsistent mit OpenClaw Dauerbetrieb und Sechs-Regionen-Guide. Mietpreise, bestellen — Stack diese Woche vom Couch-Laptop weg.
Procurement soll API-Dollars und Mac-Miete zusammen rechnen: Ein Senior-Tag Debugging wegen schlafendem Host uebersteigt oft Monatsmiete eines kleinen M4. BYOK auf stabilem Mac ist planbar; gebündelte Quoten eines CLI-Herstellers sind es nicht — Lesson aus Gemini-CLI-Debatte Juni 2026, parallel zu OpenRouter-Flexibilitaet.