Audit-Rubric fuer Agent-Systeme

Strukturierte Bewertung eines existierenden Agent-Systems in 10 Core-Kategorien plus 2 Bonus-Kategorien, jeweils 0/10. Liefert einen gewichteten Aggregat-Score plus Top-Maßnahmen-Liste mit Impact × Effort.

Verwendet die 10 Prinzipien aus agent-system-best-practices als Bewertungsbasis. Ist nicht zu verwechseln mit:

  • SKILL (deckt Security-Achse ab)
  • SKILL (deckt Browser-QA ab)

Wann triggern

  • Nach 2-4 Wochen Production-Use eines neuen Agent-Systems
  • Vor Kunden-Uebergabe / Vor Pricing-Aenderung
  • Quartalsweise auf produktive Systeme
  • Vor jeder Major-Refactor-Entscheidung (Multi-Tenant-Schritt, neue Modell-Generation)

Methodik

Pro Kategorie:

  1. Stark — was lauft gut, mit Belegen aus Source-Files/Logs
  2. Schwach — wo klemmt es, mit konkreten Beispielen
  3. Score 0-10 mit klarer Begruendung
  4. Hebel — eine konkrete Maßnahme die den groessten Score-Lift bringt

Am Ende:

  • Gewichteter Aggregat-Score
  • Top-5-Maßnahmen sortiert nach Impact × Effort
  • Realistic-Ceiling-Einschaetzung (was kostet 9.5 vs 9.9 vs 10)
  • Baseline-JSON fuer Regression-Vergleich

Die 10 Core-Kategorien mit Gewichtung

#KategorieGewichtWas gemessen wird
1Modell-Auswahl & Routing8%Default, Routing-Logik, Modell-Mix, Cost-Cap
2Tool-Design & MCP-Integration12%Anzahl, Whitelist-Strategie, search_tools, Naming, Side-Effects-Declaration
3Context-Engineering & System-Prompt12%Struktur, Date-Context, Tool-Hints, Anti-Halluzination, Templating
4Memory & State-Management12%Conversation-Persistence, DB-Backend, User-Memory, Vault-Integration
5Eskalation, Safety & Human-in-the-Loop10%Irreversible-Actions-Gating, Tool-Schema-Constraints, Audit-Trail
6Evals & Quality-Gates10%Eval-Suite, Regression-Detection, Acceptance-Kriterien, CI-Gate
7Observability & Monitoring10%Tool-Call-Success-Rate, Cost-per-User, SLI/SLO, Alarms
8Cost-Engineering & Latency8%Prompt-Caching, Parallel-Calls, Modell-Routing, Pre-Warming
9Security & DSGVO-Compliance12%Region-Lock, KMS, ZDR, Forward-Headers, AVV, Sub-Processor
10Compounding & Iteration6%Run-Logs, Lessons-Learned, System-Prompt-Versionierung, Pattern-Capture

Bonus-Kategorien (additiv, 5% Gewicht jeweils):

  • Multi-Tenancy-Readiness (Template-System, Per-Tenant-Isolation)
  • Onboarding & Documentation (Customer-facing Quickstart, FAQ, Tooltips)

Score-Skala pro Kategorie

ScoreBedeutung
0-2Kritisch, blockiert Production-Use
3-4Schwach, sichtbare Defizite
5-6OK, im Mittelfeld
7-8Gut, kein dringender Bedarf
9Best-in-Class fuer KMU-Scale
10Theoretisch — praktisch kaum erreichbar, oft over-engineered

Score-Stufen-Definition (Beispiel Memory & State)

ScoreStand
0-2Keine Persistierung, kein Backup, Conversation-Loss bei Restart
3-4SQLite-on-NFS mit bekannten Lock-Issues, Backup manuell
5-6Postgres oder gleichwertig, automatische Backups, kein User-Memory
7-8Postgres + Connection-Pooling + automatische Backups + Per-User-Settings
9Plus Knowledge-Base pro User + Vault-Integration als Retrieval-Layer
10Plus Cross-Session-Memory + pgvector + Event-Sourcing (oft over-engineered)

Analoge Stufen-Definitionen pro Kategorie sind im jeweiligen Audit-Report zu dokumentieren.

Was gilt als 10/10 — und warum es oft Bullshit ist

Score 10 in einer Kategorie bedeutet: alle Best-Practices aus agent-system-best-practices umgesetzt plus systematische Quality-Loops. In der Realitaet kostet der Sprung von 9 auf 10 mehr als der Sprung von 4 auf 9. Best-in-Class-KMU-Setup liegt bei 9.2-9.5/10 Aggregat. Ab 9.5 ist es Engineering-Eitelkeit, keine Business-Notwendigkeit.

Faustregel: wenn ein Bonus-Item nicht durch konkrete User-Pain oder Sales-Pitch getriggert wird, ist es Over-Engineering.

Output-Format

intern/runs/<datum>-audit-<system-slug>/
  ├── _index.md         (Run-Frontmatter + Top-5 + Naechster-Audit-Trigger)
  ├── report.md         (Detail-Befund pro Kategorie)
  └── baseline.json     (Score-Snapshot fuer Regression-Vergleich)

baseline.json Format siehe 2026-05-17 Beispiel.

Top-Maßnahmen-Format

Pro Maßnahme:

ID:        A1
Title:     RDS-Migration durchziehen
Category:  memory_state
Impact:    9/10  (loest groesstes operatives Risiko)
Effort:    1 Tag
Cost:      +14 EUR/Monat
Wave:      1

Top-5 nach Impact × Effort. Drei Wellen empfohlen:

  • Welle 1 (Production-Ready): 5-6 Bautage, hebt 2-3 Punkte
  • Welle 2 (Reife): 7-8 Bautage, hebt 1 Punkt
  • Welle 3 (Excellence, opportunistisch): 10-15 Bautage verteilt, hebt 0.3 Punkte

Anti-Patterns im Audit selbst

  • Checklist-Modus. Audit muss reasoning sein, nicht Bullets abhaken. Pro Kategorie ein Befund mit Begruendung, dann Score.
  • Wunschlisten-Bias. „Hier koennte man noch X” ist kein Befund. Befund ist „User merkt X weil Y nicht funktioniert”.
  • Theoretisches Best-Practice-Zitieren. Wenn Best-Practice nicht im konkreten Kontext relevant ist, nicht reinschreiben.
  • Severity-Inflation. Wenn alles „kritisch” ist, ist nichts mehr kritisch. Kritisch heisst: blockiert Production oder Compliance.

Erste Anwendung

Beispiel-Audit: _index — Audit der VF Open WebUI Infrastruktur. Aggregat-Score 6.6/10. Drei Wellen geplant zur Hebung auf 9.5/10.

Cross-Refs