Warum ein einzelner Agent skaliert nicht: MAS-Grundlagen und drei Steuerungstopologien
2024–2025 brachte AI Agents in die Produktion. Doch alle Aufgaben in einen LLM-Agent zu packen, lässt Systeme bei Skalierung kollabieren.
Kontextfenster-Grenzen: Zwischenzustände füllen das Fenster, die Qualität sinkt stark.
Fachkompetenz-Verdünnung: Retrieval, Coding und Audit in einem Agent — nichts davon gut.
Keine Parallelität: Sequentielle Ausführung summiert Latenzen.
Single Point of Failure: Ein fehlgeschlagener Modellaufruf stoppt alles.
Beleg: Google Agent Bake-Off: von einer Stunde auf zehn Minuten (6×). AdaptOrch: 12–23 % auf SWE-bench.
Ein Multi-Agent-System (MAS) besteht aus unabhängigen Agents mit definierten Protokollen und Orchestrierung. Jeder Agent: Single Responsibility, Tools, Zustandsisolation, austauschbar.
| Topologie | Vorteile | Nachteile | Einsatz |
|---|---|---|---|
| Zentralisiert | Auditierbar | Orchestrator-Engpass | Compliance |
| Dezentral | Resilient, schnell | Schwer debugbar | Peer-Koordination |
| Hierarchisch | Ausgewogen | Mittlere Komplexität | Enterprise |
Sechs Orchestrierungsmuster: von Sequential Pipeline bis Hybrid
Diese sechs Muster decken über 95 % produktiver Systeme ab.
| Muster | Kern | Latenz | Anwendung |
|---|---|---|---|
| ① Sequential Pipeline | Linear A→B→C | Summe | Content, Compliance |
| ② Parallel Fan-out/in | Parallel + Merge | Maximum | Multi-Source Research |
| ③ Supervisor-Worker | Supervisor routet | Dynamisch | Coding-Assistenten |
| ④ Swarm | P2P + Termination | Unvorhersehbar | Code-Review-Debatte |
| ⑤ Blackboard | Shared Workspace | Async | Langläufer |
| ⑥ Hybrid | Router + Supervisor + Parallel | Gemischt | Enterprise CMS |
Muster 1: LangGraph StateGraph. Muster 2: Send API + Reducer. Muster 3: Keyword-Fast-Path (<1 ms) + LLM. Muster 4: AutoGen max_round=6. Muster 5: Blackboard-Bedingungen. Muster 6: Intent Router → Supervisor → Parallel + Qualitätspipeline.
AdaptOrch: Topologie schlägt Modellwahl in Multi-Agent-Systemen.
LangGraph vs CrewAI vs AutoGen und MCP + A2A Dual-Protokoll
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Paradigma | State-Graph | Rollenbasiert | Konversation |
| State | Nativ | Custom | Begrenzt |
| HITL | interrupt() | Custom | Ja |
| Produktion | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
2026 Zwei-Schichten-Standard (Linux Foundation): MCP (vertikal) für Tool/API-Zugriff. A2A (horizontal) — Google April 2025, v1.0 2026, 50+ Partner. Agent Card → Skill-Check → JSON-RPC 2.0 message/send. Bei personenbezogener Protokollierung: DSGVO-konforme Datenverarbeitung beachten.
Sechs Produktionsschritte: Persistenz, HITL, Circuit Breaker, Observability
PostgreSQL Checkpoints: PostgresSaver mit thread_id.
Human-in-the-Loop: interrupt() vor Hochrisiko-Aktionen.
Circuit Breaker: CLOSED/OPEN/HALF_OPEN, Schwellwert 5.
Token-Budget: TokenBudgetManager vor jedem Aufruf.
Distributed Tracing: OpenTelemetry correlation_id.
Handoff-Validierung + LLM-as-Judge: Schema, Konfidenz <0,7, vier Dimensionen.
Observability-Metriken, vier Fallstricke, Entscheidungsbaum, 2026-Trends
MAST (1642 Traces): Design 41,77 %, Fehlausrichtung 36,94 %, Verifikation 21,30 %. 57 % in Produktion, nur 8 % Observability fertig.
Fallstrick 1 — Kontextverschmutzung: Halluzinationen werden zur Wahrheit.
Fallstrick 2 — Endlosschleifen: Token-Kosten explodieren.
Fallstrick 3 — Over-Engineering: Sweet Spot 3–8 Agents.
Fallstrick 4 — Demo→Produktion: Längenlimits, Injection, PII.
2026: Föderierte Orchestrierung, multimodale MAS, adaptive Topologie, EU AI Act.
Für 7×24 Multi-Agent-Orchestrierung: KVMNODE dedizierte Mac Mini M4/M4 Pro. Preise, Bestellen, Hilfe.