audit-checklist

Modell-Liste in LiteLLM-Config enthaelt nur die Modelle die User-facing sind (sichtbar im Dropdown). Background-Modelle (Haiku) bleiben in model_list aber sind nicht in DEFAULT_MODELS env.

TASK_MODEL + TASK_MODEL_EXTERNAL sind auf das billigste verfuegbare Modell gesetzt (Haiku 4.5, nicht Sonnet). Background-Tasks (Title-Gen, Tag-Gen, Search-Query-Gen, Follow-up-Gen) sind oft 60-70% der Calls.

DEFAULT_MODEL_PARAMS.max_tokens ist auf einen sinnvollen Cap gesetzt (z.B. 2000 fuer Chat, nicht 8192).

DEFAULT_MODEL_PARAMS.thinking ist {"type":"disabled"} oder budget_tokens <= 500 ausser Extended-Thinking ist explizit gewollt.

ENABLE_SEARCH_QUERY_GENERATION ist false wenn Web-Search wenig genutzt wird.

BYPASS_WEB_SEARCH_EMBEDDING_AND_RETRIEVAL ist false wenn Web-Search aktiv (sonst gehen Roh-Results in den Prompt).

RAG Top-K ≤ 4, Chunk-Size ≤ 500 Tokens.

Prompt-Caching konfiguriert UND verifiziert (CloudWatch CacheReadInputTokenCount > 0 nach 24h).

Application Inference Profile angelegt + ARN in LiteLLM-Config-model_list[].litellm_params.model.

Cost-Allocation-Tags Application, Owner, Environment sind am AIP.

Agentic Ventures Wiki

Explorer

audit-checklist

Audit-Checklist

Typ A — ECS-Service mit LiteLLM-Proxy (Pattern: Open-WebUI VF)

Typ B — Lambda mit boto3 + Bedrock (Pattern: receptionist-brain, daily-briefing, beleg-pipeline)

Typ C — FastAPI/ECS mit eigenem Bedrock-Client (Pattern: a-icking inference-service)

Typ D — MCP-Server (Pattern: mcp-papierkram, mcp-whatsapp, mcp-vf-hosted)

Cross-Cutting (jeder Caller)

Wann den Audit fahren

Verknuepfung zu anderen Skills

Graphansicht

Inhaltsverzeichnis