Bedrock-Kosten-Optimierung

Ausloeser

Cost-Explorer-Lookup am 2026-05-17: Sonnet 4.6 in eu-central-1 hat in Mai (1.-17.) **0. Input/Output-Ratio 95:1 (12.31M In / 0.13M Out) — Geld steckt fast vollstaendig in System-Prompts + Kontext-Injection, nicht in Antworten. Kein Prompt-Caching aktiv (kein Cache Read-Usage-Type im Cost-Explorer).

Akut-Findings (2026-05-17)

SevBefundWirkt aufAction-Phase
ROTKein Application Inference Profile pro Caller — wir wissen nicht wer die 12.3M Input-Tokens frisstalle Bedrock-CallerPhase 4
ROTKein AWS Budget-Alarm + keine Budget-Action — Runaway-Loop koennte ueber Nacht $500+ machenAccount av-productionPhase 3
ROTKeine max_tokens-Caps in eigenen Callern dokumentiert — Default Sonnet 4.5 ist 8192mcp-whatsapp Brain, Lambda-Routinen, Open-WebUIPhase 3
GELBMCP-Tool-Descriptions vermutlich nicht token-optimiert — mcp-papierkram hat ~70 ToolsEigenbau-MCPsPhase 5 (nach Daten)
GELBOpen-WebUI VF-System-Prompt + RAG-Settings (Top-K, Chunk-Size) nicht auditiertOpen-WebUI VF-PilotPhase 5
GELBCohere Embed Multilingual (1.44) in Mai — Titan v2 5x billiger wo keine Cross-Lingual-SucheRAG-PipelinesPhase 5
GELBPrompt-Caching 1h-TTL (seit Jan 2026) noch nicht DefaultCaller mit System-Prompt > 1k TokensPhase 5 (parallel-Session)
GRUENModell-Routing Haiku-First wird parallel schon implementiertOpen-WebUI, mcp-whatsappPhase 5 (parallel-Session)

Ziel-Architektur

Drei Ebenen die nach dem Projekt eingebaut sind:

  1. Sichtbarkeit — Application Inference Profile pro Caller + Cost-Allocation-Tags in Billing → Cost Explorer zeigt direkt welcher Caller wie teuer ist.
  2. Notbremsen — Budget+Action, max_tokens-Caps, Stop-Sequences, Bedrock-Service-Quotas. Verhindert Runaway-Kosten, unabhaengig von Caller-Bugs.
  3. Compounding-Disziplin — Token-Audit als Pflicht-Check fuer alle zukuenftigen MCPs und Lambdas, verankert in mcp-best-practices, mcp-eigenbau-Skill, routine-anlegen-Skill.

Das Wiederverwendbare wandert in einen neuen Skill bedrock-cost-optimize (siehe Phase 3) — der Skill ist Cause + Effect dieses Projekts.

Sub-Files

Erfolgs-Kriterien

  • Bedrock-Modell-Kosten in Juni < 42.77 in halbem Monat = Trend $85+)
  • Cost Explorer zeigt fuer jeden Bedrock-Call den Caller (via AIP)
  • Jeder neue MCP / jede neue Lambda durchlaeuft Token-Audit vor Live-Gang (verankert in mcp-eigenbau + routine-anlegen)
  • Budget-Action existiert und wuerde bei $80 hart abriegeln

Out-of-Scope

  • Modell-Wahl-Strategie (Sonnet vs Haiku vs Opus) — laeuft in anderer Session, nicht hier doppelt definieren
  • Prompt-Caching-Implementierung — laeuft in anderer Session, hier nur als Defaults im Skill verankern
  • Open-WebUI-Feature-Roadmap — Optimierung beruehrt nur Settings (System-Prompt, RAG-Params), keine Features

8 Dateien in diesem Ordner.