Naechste-Session-Launch-Prompt
Kopier diesen Block in die naechste Session als ersten User-Prompt:
Wir machen Welle 1 weiter — Open WebUI VF Audit-Hebung von 7.0/10 auf 8.6/10.
STAND (Session 2026-05-17):
- Audit + Korrektur durch (Memory & State 4 → 7 weil RDS war schon deployed, Aggregat 7.0)
- Welle-1-Plan auf Option C (Caching + Backend-Routing + Tool-Schema-Caching), 5 Tage, Ziel 8.6
- Tag 1 done: 25 Eval-Cases in `intern/projekte/openwebui-vf/evals/cases/`, SharePoint-Test-Files in `Workshop/VibeFactory/_eval-tests/`
- Tag 2 done: Eval-Runner CLI gebaut in `~/source/apps/open-webui-vf/evals/`, Bedrock-Judge isoliert smoke-getestet, Open-WebUI-Calls noch nicht durchgelaufen (API-Key wartet)
- Tag 3 done/in-progress: ZDR-Mail-Draft, VF-AVV-Draft, Tool-Call-Audit-Middleware + CloudWatch-Metric (Stand siehe [[welle-1-perfektion]] Tag 3)
NAECHSTE SCHRITTE (in Reihenfolge):
1. Pre-Flight:
- `aws sso login --profile av-prod` (falls Token expired)
- Pruefen: was ist seit 2026-05-17 in `intern/projekte/openwebui-vf/welle-1-perfektion.md` als pending markiert?
- TodoWrite aufsetzen entsprechend der pending-Items
2. Tag 4 — Backend-Modell-Routing + Pre-Klassifikator (~1 Tag):
- Schritt 4.1: Opus 4.7 in Bedrock-Console aktivieren (2 Min Klick)
URL: https://eu-central-1.console.aws.amazon.com/bedrock/home?region=eu-central-1#/modelaccess
Verifizieren: `aws bedrock list-foundation-models --profile av-prod --region eu-central-1 --query 'modelSummaries[?contains(modelId, \`opus-4-7\`)].modelId'`
- Schritt 4.2: LiteLLM-Config in `~/source/apps/open-webui-vf/infra/lib/open-webui-vf-stack.ts` um 2 zusaetzliche Backend-Modelle erweitern (`vf-haiku-backend`, `vf-opus-backend`) — Detail in [[welle-1-perfektion#tag-4|Tag 4]]
Wichtig: `meta.hidden: true` in Open-WebUI nach Deploy setzen damit User die Backend-Modelle nicht sieht
- Schritt 4.3: Pre-Klassifikator als LiteLLM-Pre-Hook (`hooks/vf_classify_route.py`) — Code-Skelett in [[welle-1-perfektion#schritt-43|Schritt 4.3]]
Klassifikator-Logik: Haiku-Call vor jedem vf-sonnet-Call, entscheidet ROUTE/REASON/PLAN
- Schritt 4.4: Routing-Eval-Cases (021-025) gegen die neue Config laufen lassen
Erwartung: Treffer-Rate >80% (eval-case-021 → Haiku, 022 → Sonnet, 023 → Opus, 024 → Haiku, 025 → Opus)
3. Tag 5 — Tool-Schema-Caching + Welle-Abschluss + erster echter Baseline-Lauf (~1 Tag):
- Schritt 5.1: LiteLLM `cache_control_injection_points` erweitern um `location: tool`. Falls Syntax nicht supported: Fallback-Hook `vf_inject_tool_cache.py` (Code-Skelett in [[welle-1-perfektion#schritt-51|Schritt 5.1]])
- Schritt 5.2: Cache-Hit-Rate via CloudWatch verifizieren (3 Test-Anfragen, `cache_read_input_tokens` in LiteLLM-Logs pruefen)
- Schritt 5.3 + Smoke-Test + Baseline-Lauf:
- Open WebUI -> Settings -> Account -> API Keys -> Create New Key (Format sk-<32 hex>)
- `export OPENWEBUI_API_KEY="sk-..."` + `export AWS_PROFILE=av-prod`
- `cd ~/source/apps/open-webui-vf/evals`
- Smoke: `uv run python run.py --against welle1-smoke --case-id eval-case-005`
- Voller Baseline-Lauf: `uv run python run.py --against welle1-complete` (~10-15 Min)
- Vergleich gegen v2.9-Pre-Welle-1 (nicht gemessen, weil System-Prompt selbst nicht veraendert — nur Modell-Routing + Caching)
- Schritt 5.4: Capability-File-Update + Welle-1-Run-Akte schreiben
- Schritt 5.5: Audit-Rubric re-laufen, Score-Delta dokumentieren (Erwartung: 7.0 -> 8.4-8.6)
4. Welle-1-Closure:
- `intern/runs/2026-05-XX-welle-1-completion/_index.md` mit Lessons-Learned schreiben
- Sunset-Reminder fuer 2026-08-15 anlegen (Pilot-Konditionen-Review)
WICHTIGE FILES (bei Bedarf reinlesen):
- [[intern/projekte/openwebui-vf/welle-1-perfektion]] — vollstaendiger Sprint-Plan mit allen Schritten + Code-Snippets
- [[intern/projekte/openwebui-vf/_index]] — Projekt-Stand
- [[intern/runs/2026-05-17-audit-openwebui-vf/_index]] — Audit-Quelle + Baseline
- [[intern/runs/2026-05-17-audit-openwebui-vf/correction-2026-05-17]] — Korrektur warum Memory & State von 4 auf 7
- [[intern/projekte/openwebui-vf/evals/_index]] — Eval-Methodik + Manueller-Setup-Status
- `~/source/apps/open-webui-vf/infra/lib/open-webui-vf-stack.ts` — Stack-Code mit RDS + LiteLLM-Config
OFFENE PUNKTE die in Session 2026-05-17 angestossen aber nicht abgeschlossen wurden:
- ZDR-Addendum von Anthropic ueber AWS-TAM (Mail-Draft erstellt — siehe extern/outbound/aws-tam/, Marvin muss noch raussuchen wer der TAM ist und senden)
- VF-AVV finalisieren (Draft erstellt — siehe extern/outbound/vf/, Marvin signt mit Andre/Christoph)
- Open-WebUI-API-Key generieren (in Browser, ~30 Sek)
CLAUDE.md Rule 21 (phasenbewusst): Tag 4 + 5 sind Code-Aenderung-Tage, ce:work Disziplin. Vor `Edit`/`Write` an Stack-File: Read der relevanten Sektionen, Diff verstehen, kleinste sinnvolle Aenderung machen.
Los gehts.
Wenn du das Prompt anpassen willst
- Falls Tag 3 nicht durchgekommen ist: das Prompt mit
Step 0: Tag 3 abschliessenergaenzen, davor priorisieren. - Falls du erst Smoke-Test laufen lassen willst BEVOR Tag 4 startet: Schritt 3 (Smoke + Baseline) vor Tag 4 ziehen.
- Falls Welle 1 lange pausiert war: Audit re-laufen, ggf. Baseline neu setzen.
Notes fuer die folgende Session
- Frontmatter-Updates pflegen:
letzte_aktivitaet,next_step,next_step_dueim _index - Run-Akten nicht vergessen — auch Zwischen-Stand-Runs sind wertvoll
- Bei Klassifikator-Misroutings: System-Prompt des Klassifikators (
CLASSIFIER_SYSTEMinvf_classify_route.py) anpassen, nicht die Eval-Cases