Rollout-Map

Generisch — fuer beliebige zukuenftige Caller. Konkrete Anwendung auf av-production-Caller siehe caller-inventar.

Hebel	ECS+LiteLLM (Open-WebUI-style)	Lambda+boto3 (receptionist-style)	FastAPI/ECS-eigener Client (a-icking-style)	MCP-Server (kein Brain)
1 AIP+Tags	✓ in `model_list[].litellm_params.model`	✓ als `modelId` im `converse()`	✓ als `model_id` Konstante	➖ (kein Bedrock-Call)
2 Budget+Alarm	(Account-weit)	(Account-weit)	(Account-weit)	(Account-weit)
3 max_tokens-Cap	✓ via `DEFAULT_MODEL_PARAMS` env	✓ via `inferenceConfig.maxTokens`	✓ Konstruktor-Parameter	➖
3b Stop-Sequences	bedingt (wenn JSON-Output)	✓ bei Tool-Use	✓ bei strukturiertem Output	➖
4 Tool-Desc-Cutdown	indirekt (LiteLLM-Tools wenn aktiv)	✓ pro MCP-Tool das benutzt wird	➖ (kein Tool-Use)	✓ Hauptangriff hier
5 System-Prompt + RAG	✓ Modelfile + RAG-Settings	✓ Code-Review System-Prompt	✓ System-Prompt-Builder + RAG-Top-K	➖
6 Prompt-Caching 1h	✓ LiteLLM-Config + Verifizierung	✓ `cachePoint`-Block in `system[]`	✓ analog	➖
7 Embeddings-Modell	➖ (Open-WebUI nutzt eigenes Embedding)	➖ (selten)	✓ Provider-Wahl in Factory	➖
8 Modell-Routing	✓ TASK_MODEL + DEFAULT_MODELS	✓ env-var BEDROCK_MODEL_ID	✓ Konstante im Code	➖
9 Batch-Inference	➖ (Realtime-Chat)	✓ wenn nicht zeitkritisch	✓ fuer Eval/Bulk-Lauefe	➖
10 Service-Quotas	(Account-weit)	(Account-weit)	(Account-weit)	(Account-weit)

Reihenfolge pro Caller-Typ

Wenn alle Hebel angewandt sind und Cost trotzdem zu hoch: Caller-Architektur infrage stellen.

Brauchen wir wirklich einen LLM-Call hier, oder reicht ein Regex/Decision-Table?
Koennen wir die User-Anfrage zwischenspeichern (Cache vor LLM)?
Ist der Use-Case ueberhaupt geeignet fuer ein Frontier-Model, oder reicht ein selbst-gehostetes kleines Modell (Llama 3.2 1B z.B.)?

Diese Fragen gehoeren ins ce:brainstorm-Territory, nicht in dieses Playbook.