VF Open WebUI Infrastruktur — Audit-Report
Gewichteter Aggregat-Score: 6.6/10 (Core, 100% Gewicht). Mit Bonus-Korrektur 6.4/10.
Stand des Systems: Sprint 1 live seit 2026-05-12, drei User onboarded (Marvin + Phase 4 fuer Andre + Christoph pending), Pilot-Konditionen, Sunset 2026-08-31.
1. Modell-Auswahl & Routing — 8/10
Stark. Sonnet 4.6 als Default, Haiku 4.5 als TASK_MODEL fuer Chat-Title/Tags (3.3x Cost-Win), vf-sonnet Custom-Model mit attached MCPs ist das richtige Pattern. Bedrock EU-CRIS, DSGVO-Lock per LiteLLM-Whitelist.
Schwach. Opus 4.7 noch nicht im Bedrock-Account aktiviert seit Sprint-1-Live (Bekanntes Issue 2 in open-webui-vf). Kein automatisches Sonnet→Opus-Routing. Kein Cost-Cap pro User.
Hebel. Opus-Aktivierung 2-Min-Klick. Pre-Klassifikator-Pattern (Haiku entscheidet welches Modell) als LiteLLM-Pre-Hook, ~1 Tag.
2. Tool-Design & MCP-Integration — 9/10
Stark. 16 Core-Tools aus 139 whitelisted — Lesson 20. search_tools-Meta-Tool fuer on-demand-Schemas ist State-of-the-Art. Tool-Namen nach Workflows (monatsabschluss, event_bilanz, kunde_uebersicht). Forward-User-Info-Headers fuer Per-User-Audit-Trail. Aggregation-First-Doktrin im System-Prompt explizit.
Schwach. Sub-MCP-Subprocess-Architektur ohne Per-Sub-Health-Check (statisch submcps_active). Kein Circuit-Breaker zwischen Sub-MCPs.
Hebel. Per-Sub-MCP-Health-Check in /health. Bei Bedarf Circuit-Breaker — overkill bei 3 Sub-MCPs.
3. Context-Engineering & System-Prompt — 9/10
Stark. Der vf-sonnet.txt Prompt v2.9 ist einer der besten KMU-System-Prompts ueberhaupt. XML-strukturierte Sektionen, Template-Vars {{CURRENT_DATE}} etc., Anti-Halluzinations-Regel mit konkretem Live-Fail-Pattern (NotFoundError < 5ms = Tool existiert nicht), Tool-First-Disziplin, Fehler-Resilienz-Sektion mit Recovery-Strategien, Sicherheits-Grenze gegen Tool-Output-Prompt-Injection. Lebende Iteration (9 Versionen seit 2026-05-12).
Schwach. VF-Stammdaten hart-im-Prompt. Wenn sich was aendert: Code-Edit + Re-Deploy. Vault hat die gleiche Info in vibe-factory — duplicate Truth.
Hebel. Stammdaten als externe Source-of-Truth (DDB-Row), Template-Variable-Substitution per Open-WebUI-Pre-Hook. Pattern wird fuer Kunde 2-N wiederverwendbar.
4. Memory & State — 4/10 (kritisch)
Stark. Conversations persistiert in EU, EFS-Backup, KMS-encrypted S3.
Schwach. SQLite-auf-EFS-NFS Lock-Contention macht das System unter Browser-Burst-Last regelmaeßig haengen (Lesson 3, explizit dokumentiert). Mitigations (UVICORN_WORKERS=2, Custom-Model statt Tool-Toggle) sind Workarounds. RDS-Migration als „PFLICHT-Followup Phase 6” markiert, aber seit 2026-05-12 nicht umgesetzt. Keine User-Memory ueber Sessions, kein Knowledge-Base, keine Vault-Integration.
Hebel. Hoechste Prio. RDS PostgreSQL t4g.micro Single-AZ, +14 EUR/Monat, 1 Tag.
5. Eskalation, Safety & Human-in-the-Loop — 7/10
Stark. Mail-Workflow mit Draft-erst-dann-Send-nach-User-Go. Excel-Write-Schutz. Code-Interpreter in WASM-Sandbox. EMERGENCY_DISABLE-Toggle. Sicherheits-Grenze im System-Prompt explizit.
Schwach. Send-Mail-Eskalation nur Prompt-basiert — Sonnet kann das ignorieren. Kein Auto-Eskalations-Pfad an Marvin bei Critical Errors (5xx-Spike).
Hebel. mcp-m365 um sharepoint_draft_send_preview plus sharepoint_send_after_confirmation(token) erweitern. Tool-Schema-Constraint macht den Eskalations-Pfad prompt-resistent. Plus CloudWatch-Alarm → SNS → Slack/Mail bei 5xx-Spike.
6. Evals & Quality-Gates — 1/10 (kritisch)
Stark. Nichts.
Schwach. KEINE Eval-Suite existiert. Groesste konzeptionelle Luecke des Systems. System-Prompt-Iteration v1 → v2.9 lief intuition-basiert auf User-Beschwerden. Keine Acceptance-Kriterien fuer Sprint-2-Deliveries. Wenn morgen vf-sonnet.txt auf v3.0 ueberarbeitet wird, gibt es keinen Mechanismus zu pruefen ob Use-Case X jetzt schlechter geworden ist.
Hebel. 20 reale Konversationen aus VF-Use seit 2026-05-12 sammeln, manuell mit erwartetem Verhalten annotieren, als Eval-Cases in intern/projekte/openwebui-vf/evals/cases/ ablegen. LLM-judge mit Sonnet 4.6 als Judge plus rubric-basierter Bewertung (0-5 pro Case). Eval-Runner als CLI.
7. Observability & Monitoring — 5/10
Stark. CloudWatch-Dashboard open-webui-vf, 3 Log-Streams, Health-URL auth-frei, Forward-User-Info-Headers ermoeglichen Per-User-Audit.
Schwach. Keine Tool-Call-Success-Rate-Metrik. Das 139→16-Tools-Bug am 2026-05-15 wurde durch manuelles CloudWatch-Lesen entdeckt — sowas sollte automatisch alarmieren. Kein Cost-per-User-Aggregat. Keine Alert-Schwellen. Kein SLI/SLO. Cold-Start 15-20s wird nicht gemessen.
Hebel. JSON-strukturierte tool_call-Events mit tool_name, user_email, duration_ms, result_status. Metric-Filter → CloudWatch-Metrics. EventBridge-Alarm bei tool_call_success_rate < 0.95.
8. Cost-Engineering & Latency — 8/10
Stark. Prompt-Caching via LiteLLM aktiv (Lesson 16) — bei 17-34k Tool-Schema-Tokens 90% Ersparnis. TASK_MODEL=Haiku. Tool-Whitelist reduziert pro-Request-Cost. Self-Cost-Pilot mit Sunset-Clause.
Schwach. Cold-Start 15-20s ist UX-Issue (Lesson 17), Bedrock-Cost nicht im Dashboard sichtbar, kein Per-User-Cost-Cap, Sunset-Clause hat keinen automatischen Reminder.
Hebel. Sunset-Trigger 2026-08-15 als Kalender-Event. Pre-Warming Cron alle 4 Stunden. Bedrock-Cost-Aggregation in CloudWatch.
9. Security & DSGVO-Compliance — 7/10
Stark. Bedrock EU-CRIS, Region-Lock per LiteLLM, KMS-encrypted alles, Egress-only SG, Cloudflare-Tunnel = kein Public-Inbound, Forward-User-Info-Headers, Scalekit-OAuth, TaskRole minimal, gitleaks in CI.
Schwach. ZDR-Addendum mit Anthropic NICHT eingerichtet — Bedrock-Standard speichert Inputs/Outputs trotzdem 30 Tage. AVV mit VF in „Phase 5”-Status, unklar ob signiert. Open WebUI Software als „MIT-Lizenz = kein Vendor” klassifiziert ohne DSB-Notiz. Cloudflare Free statt WAF Pro.
Hebel. ZDR-Addendum bei Anthropic-AWS-Account-Manager anfordern. AVV final mit VF schliessen. WAF Pro spaeter wenn Industriekunde.
10. Compounding & Iteration — 9/10
Stark. Run-Akten in intern/runs/2026-05-12-openwebui-vf-build/ mit _index, decisions, lessons-learned (25 Items konkret mit Live-Symptomen) — Best-in-Class. Pattern-File open-webui-fargate-bedrock aktualisiert. System-Prompt-Versionierung. Sprint-2-Master-Plan vorausgeplant. Vault-First.
Schwach. Production-Bugs werden zu Lessons, aber nicht systematisch zu Eval-Cases.
Hebel. Sobald Eval-Suite existiert (Punkt 6): jeder neue Lesson-Learned-Eintrag auto-vorgeschlagen als Eval-Case.
Bonus 1: Multi-Tenancy-Readiness — 5/10
Bewusst Pilot-Only. Single-Tenant ist heute die richtige Architektur. Pattern-File sagt explizit „Wenn Kunde waechst → LibreChat-Phase”. Scalekit skalierbar. Per-User-Forward-Headers.
Schwach. vf-sonnet System-Prompt hart-kodiert. Andre + Christoph teilen mcp-vf-hosted Upstream-Tokens (kein Per-User-Papierkram-Token). Pro neuem Kunde: vollstaendig neuer Stack.
Wann anpacken. Erst wenn Kunde 2 commitet. Vorher kein ROI. Backlog: welle-3-excellence.
Bonus 2: Onboarding & Documentation — 8/10
Stark. Pattern-File, Capability-File, Run-Akten, Cross-Refs sauber verlinkt. Interne Doku top.
Schwach. Customer-facing Quickstart-Doku fuer VF-Team fehlt. Verteilt in System-Prompt-Snippets.
Hebel. extern/shared/vf/quickstart.md mit Top-5-Use-Cases.
Gewichtete Berechnung
| Kategorie | Score | Gewicht | Beitrag |
|---|---|---|---|
| Modell-Auswahl & Routing | 8 | 8% | 6.4 |
| Tool-Design & MCP | 9 | 12% | 10.8 |
| Context-Engineering | 9 | 12% | 10.8 |
| Memory & State | 4 | 12% | 4.8 |
| Eskalation & Safety | 7 | 10% | 7.0 |
| Evals | 1 | 10% | 1.0 |
| Observability | 5 | 10% | 5.0 |
| Cost & Latency | 8 | 8% | 6.4 |
| Security & DSGVO | 7 | 12% | 8.4 |
| Compounding | 9 | 6% | 5.4 |
| Aggregat Core | 100% | 66.0/100 = 6.6/10 |
Bonus zieht real auf 6.4/10 (Multi-Tenancy 5/10 + Onboarding 8/10).
Einordnung
System ist in den Bereichen Tool-Design, Context-Engineering, Compounding objektiv weltklasse — vergleichbar mit Anthropic-internen Best-Practices.
Zwei strukturelle Luecken ziehen den Aggregat brutal runter:
- Memory & State (4/10) — SQLite-EFS-Lock-Contention, bekanntes geplantes Problem, klare Loesung, nicht durchgezogen.
- Evals (1/10) — du iterierst seit zwei Wochen blind auf System-Prompts.
Wenn beide auf 7+ gehoben werden, springt der Aggregat auf 8.2/10. Mit Welle 2 zusaetzlich auf 9.2/10. Welle 3 bringt nochmal 9.5. Mehr ist Diminishing Returns.
Roadmap
- welle-1-perfektion — 5-6 Bautage, +40 EUR/Mo zusaetzlich, 6.6 → 8.2 (Production-Ready)
- welle-2-reife — 7-8 weitere Bautage, 8.2 → 9.2 (Best-in-Class-KMU)
- welle-3-excellence — 10-15 Bautage opportunistisch, 9.2 → 9.5 (Top-Tier)
Nicht in der Roadmap (bewusst): BSI C5 / ISO 27001, Multi-Region, pgvector + Vault-RAG, Event-Sourcing, Eval-Tool-Stack, Video-Onboarding, Approval-Workflow-UI. Das sind die letzten 5/100, kosten zusammen ~80-120k EUR + 6-12 Monate Engineering. Fuer 10k-MRR-Ziel reine Kapital-Verbrennung.