VF Open WebUI Infrastruktur — Audit-Report

Gewichteter Aggregat-Score: 6.6/10 (Core, 100% Gewicht). Mit Bonus-Korrektur 6.4/10.

Stand des Systems: Sprint 1 live seit 2026-05-12, drei User onboarded (Marvin + Phase 4 fuer Andre + Christoph pending), Pilot-Konditionen, Sunset 2026-08-31.

1. Modell-Auswahl & Routing — 8/10

Stark. Sonnet 4.6 als Default, Haiku 4.5 als TASK_MODEL fuer Chat-Title/Tags (3.3x Cost-Win), vf-sonnet Custom-Model mit attached MCPs ist das richtige Pattern. Bedrock EU-CRIS, DSGVO-Lock per LiteLLM-Whitelist.

Schwach. Opus 4.7 noch nicht im Bedrock-Account aktiviert seit Sprint-1-Live (Bekanntes Issue 2 in open-webui-vf). Kein automatisches Sonnet→Opus-Routing. Kein Cost-Cap pro User.

Hebel. Opus-Aktivierung 2-Min-Klick. Pre-Klassifikator-Pattern (Haiku entscheidet welches Modell) als LiteLLM-Pre-Hook, ~1 Tag.

2. Tool-Design & MCP-Integration — 9/10

Stark. 16 Core-Tools aus 139 whitelisted — Lesson 20. search_tools-Meta-Tool fuer on-demand-Schemas ist State-of-the-Art. Tool-Namen nach Workflows (monatsabschluss, event_bilanz, kunde_uebersicht). Forward-User-Info-Headers fuer Per-User-Audit-Trail. Aggregation-First-Doktrin im System-Prompt explizit.

Schwach. Sub-MCP-Subprocess-Architektur ohne Per-Sub-Health-Check (statisch submcps_active). Kein Circuit-Breaker zwischen Sub-MCPs.

Hebel. Per-Sub-MCP-Health-Check in /health. Bei Bedarf Circuit-Breaker — overkill bei 3 Sub-MCPs.

3. Context-Engineering & System-Prompt — 9/10

Stark. Der vf-sonnet.txt Prompt v2.9 ist einer der besten KMU-System-Prompts ueberhaupt. XML-strukturierte Sektionen, Template-Vars {{CURRENT_DATE}} etc., Anti-Halluzinations-Regel mit konkretem Live-Fail-Pattern (NotFoundError < 5ms = Tool existiert nicht), Tool-First-Disziplin, Fehler-Resilienz-Sektion mit Recovery-Strategien, Sicherheits-Grenze gegen Tool-Output-Prompt-Injection. Lebende Iteration (9 Versionen seit 2026-05-12).

Schwach. VF-Stammdaten hart-im-Prompt. Wenn sich was aendert: Code-Edit + Re-Deploy. Vault hat die gleiche Info in vibe-factory — duplicate Truth.

Hebel. Stammdaten als externe Source-of-Truth (DDB-Row), Template-Variable-Substitution per Open-WebUI-Pre-Hook. Pattern wird fuer Kunde 2-N wiederverwendbar.

4. Memory & State — 4/10 (kritisch)

Stark. Conversations persistiert in EU, EFS-Backup, KMS-encrypted S3.

Schwach. SQLite-auf-EFS-NFS Lock-Contention macht das System unter Browser-Burst-Last regelmaeßig haengen (Lesson 3, explizit dokumentiert). Mitigations (UVICORN_WORKERS=2, Custom-Model statt Tool-Toggle) sind Workarounds. RDS-Migration als „PFLICHT-Followup Phase 6” markiert, aber seit 2026-05-12 nicht umgesetzt. Keine User-Memory ueber Sessions, kein Knowledge-Base, keine Vault-Integration.

Hebel. Hoechste Prio. RDS PostgreSQL t4g.micro Single-AZ, +14 EUR/Monat, 1 Tag.

5. Eskalation, Safety & Human-in-the-Loop — 7/10

Stark. Mail-Workflow mit Draft-erst-dann-Send-nach-User-Go. Excel-Write-Schutz. Code-Interpreter in WASM-Sandbox. EMERGENCY_DISABLE-Toggle. Sicherheits-Grenze im System-Prompt explizit.

Schwach. Send-Mail-Eskalation nur Prompt-basiert — Sonnet kann das ignorieren. Kein Auto-Eskalations-Pfad an Marvin bei Critical Errors (5xx-Spike).

Hebel. mcp-m365 um sharepoint_draft_send_preview plus sharepoint_send_after_confirmation(token) erweitern. Tool-Schema-Constraint macht den Eskalations-Pfad prompt-resistent. Plus CloudWatch-Alarm → SNS → Slack/Mail bei 5xx-Spike.

6. Evals & Quality-Gates — 1/10 (kritisch)

Stark. Nichts.

Schwach. KEINE Eval-Suite existiert. Groesste konzeptionelle Luecke des Systems. System-Prompt-Iteration v1 → v2.9 lief intuition-basiert auf User-Beschwerden. Keine Acceptance-Kriterien fuer Sprint-2-Deliveries. Wenn morgen vf-sonnet.txt auf v3.0 ueberarbeitet wird, gibt es keinen Mechanismus zu pruefen ob Use-Case X jetzt schlechter geworden ist.

Hebel. 20 reale Konversationen aus VF-Use seit 2026-05-12 sammeln, manuell mit erwartetem Verhalten annotieren, als Eval-Cases in intern/projekte/openwebui-vf/evals/cases/ ablegen. LLM-judge mit Sonnet 4.6 als Judge plus rubric-basierter Bewertung (0-5 pro Case). Eval-Runner als CLI.

7. Observability & Monitoring — 5/10

Stark. CloudWatch-Dashboard open-webui-vf, 3 Log-Streams, Health-URL auth-frei, Forward-User-Info-Headers ermoeglichen Per-User-Audit.

Schwach. Keine Tool-Call-Success-Rate-Metrik. Das 139→16-Tools-Bug am 2026-05-15 wurde durch manuelles CloudWatch-Lesen entdeckt — sowas sollte automatisch alarmieren. Kein Cost-per-User-Aggregat. Keine Alert-Schwellen. Kein SLI/SLO. Cold-Start 15-20s wird nicht gemessen.

Hebel. JSON-strukturierte tool_call-Events mit tool_name, user_email, duration_ms, result_status. Metric-Filter → CloudWatch-Metrics. EventBridge-Alarm bei tool_call_success_rate < 0.95.

8. Cost-Engineering & Latency — 8/10

Stark. Prompt-Caching via LiteLLM aktiv (Lesson 16) — bei 17-34k Tool-Schema-Tokens 90% Ersparnis. TASK_MODEL=Haiku. Tool-Whitelist reduziert pro-Request-Cost. Self-Cost-Pilot mit Sunset-Clause.

Schwach. Cold-Start 15-20s ist UX-Issue (Lesson 17), Bedrock-Cost nicht im Dashboard sichtbar, kein Per-User-Cost-Cap, Sunset-Clause hat keinen automatischen Reminder.

Hebel. Sunset-Trigger 2026-08-15 als Kalender-Event. Pre-Warming Cron alle 4 Stunden. Bedrock-Cost-Aggregation in CloudWatch.

9. Security & DSGVO-Compliance — 7/10

Stark. Bedrock EU-CRIS, Region-Lock per LiteLLM, KMS-encrypted alles, Egress-only SG, Cloudflare-Tunnel = kein Public-Inbound, Forward-User-Info-Headers, Scalekit-OAuth, TaskRole minimal, gitleaks in CI.

Schwach. ZDR-Addendum mit Anthropic NICHT eingerichtet — Bedrock-Standard speichert Inputs/Outputs trotzdem 30 Tage. AVV mit VF in „Phase 5”-Status, unklar ob signiert. Open WebUI Software als „MIT-Lizenz = kein Vendor” klassifiziert ohne DSB-Notiz. Cloudflare Free statt WAF Pro.

Hebel. ZDR-Addendum bei Anthropic-AWS-Account-Manager anfordern. AVV final mit VF schliessen. WAF Pro spaeter wenn Industriekunde.

10. Compounding & Iteration — 9/10

Stark. Run-Akten in intern/runs/2026-05-12-openwebui-vf-build/ mit _index, decisions, lessons-learned (25 Items konkret mit Live-Symptomen) — Best-in-Class. Pattern-File open-webui-fargate-bedrock aktualisiert. System-Prompt-Versionierung. Sprint-2-Master-Plan vorausgeplant. Vault-First.

Schwach. Production-Bugs werden zu Lessons, aber nicht systematisch zu Eval-Cases.

Hebel. Sobald Eval-Suite existiert (Punkt 6): jeder neue Lesson-Learned-Eintrag auto-vorgeschlagen als Eval-Case.

Bonus 1: Multi-Tenancy-Readiness — 5/10

Bewusst Pilot-Only. Single-Tenant ist heute die richtige Architektur. Pattern-File sagt explizit „Wenn Kunde waechst → LibreChat-Phase”. Scalekit skalierbar. Per-User-Forward-Headers.

Schwach. vf-sonnet System-Prompt hart-kodiert. Andre + Christoph teilen mcp-vf-hosted Upstream-Tokens (kein Per-User-Papierkram-Token). Pro neuem Kunde: vollstaendig neuer Stack.

Wann anpacken. Erst wenn Kunde 2 commitet. Vorher kein ROI. Backlog: welle-3-excellence.

Bonus 2: Onboarding & Documentation — 8/10

Stark. Pattern-File, Capability-File, Run-Akten, Cross-Refs sauber verlinkt. Interne Doku top.

Schwach. Customer-facing Quickstart-Doku fuer VF-Team fehlt. Verteilt in System-Prompt-Snippets.

Hebel. extern/shared/vf/quickstart.md mit Top-5-Use-Cases.

Gewichtete Berechnung

Kategorie	Score	Gewicht	Beitrag
Modell-Auswahl & Routing	8	8%	6.4
Tool-Design & MCP	9	12%	10.8
Context-Engineering	9	12%	10.8
Memory & State	4	12%	4.8
Eskalation & Safety	7	10%	7.0
Evals	1	10%	1.0
Observability	5	10%	5.0
Cost & Latency	8	8%	6.4
Security & DSGVO	7	12%	8.4
Compounding	9	6%	5.4
Aggregat Core		100%	66.0/100 = 6.6/10

Bonus zieht real auf 6.4/10 (Multi-Tenancy 5/10 + Onboarding 8/10).

Einordnung

System ist in den Bereichen Tool-Design, Context-Engineering, Compounding objektiv weltklasse — vergleichbar mit Anthropic-internen Best-Practices.

Zwei strukturelle Luecken ziehen den Aggregat brutal runter:

Memory & State (4/10) — SQLite-EFS-Lock-Contention, bekanntes geplantes Problem, klare Loesung, nicht durchgezogen.
Evals (1/10) — du iterierst seit zwei Wochen blind auf System-Prompts.

Wenn beide auf 7+ gehoben werden, springt der Aggregat auf 8.2/10. Mit Welle 2 zusaetzlich auf 9.2/10. Welle 3 bringt nochmal 9.5. Mehr ist Diminishing Returns.

Roadmap

welle-1-perfektion — 5-6 Bautage, +40 EUR/Mo zusaetzlich, 6.6 → 8.2 (Production-Ready)
welle-2-reife — 7-8 weitere Bautage, 8.2 → 9.2 (Best-in-Class-KMU)
welle-3-excellence — 10-15 Bautage opportunistisch, 9.2 → 9.5 (Top-Tier)

Nicht in der Roadmap (bewusst): BSI C5 / ISO 27001, Multi-Region, pgvector + Vault-RAG, Event-Sourcing, Eval-Tool-Stack, Video-Onboarding, Approval-Workflow-UI. Das sind die letzten 5/100, kosten zusammen ~80-120k EUR + 6-12 Monate Engineering. Fuer 10k-MRR-Ziel reine Kapital-Verbrennung.

Agentic Ventures Wiki

Explorer

report