bedrock-cost-optimize

Skill mit 6-Phasen-Workflow plus 10 konkrete Hebel. Erstmals durchgespielt im Projekt _index gegen av-production im Mai 2026 ($42 Sonnet-4.6-Burst → Optimierungs-Vorlage).

Trigger-Phrasen

  • „bedrock kosten audit”
  • „warum kostet bedrock so viel”
  • „AIP einrichten fuer X”
  • „MCP token check”
  • „cost-gate fuer Y”
  • „spar bedrock”
  • „kostentreiber finden in Bedrock”

Workflow — 6 Phasen

PhaseWorumSkript-Hinweis
1 DiscoverWer ruft Bedrock? (CloudWatch AWS/Bedrock Namespace + ECS/Lambda-Inventar). CloudTrail Data-Events sind standardmaessig NICHT erfasst — daher CloudWatch zuerst.siehe Phase-1-Pattern im Projekt-Plan
2 BaselinePro Caller: Bedrock-Modell (env-vars + Source-Code), System-Prompt-Token-Schaetzung (chars/3.5 fuer DE), Avg In/Out aus CloudWatch.analog
3 GateNotbremsen: AWS Budget+Alarm, Service-Quotas, max_tokens Hard-Caps pro Caller. Budget-Action mit IAM-Restrict nur nach Marvin-OK.playbook §3
4 ProfileApplication Inference Profile pro Caller + Cost-Allocation-Tags + Bedrock Model-Invocation-Logging aktivieren.playbook §4
5 OptimizeDatengetrieben (nach 3 Tagen AIP-Daten): Tool-Description-Cutdown, System-Prompt+RAG-Tuning, Modell-Routing pruefen, Batch-Inference fuer Async, Embeddings-Modell-Wahl.playbook §5
6 CompoundLessons → mcp-best-practices + mcp-eigenbau + routine-anlegen. Token-Audit wird Pflicht-Check.playbook §6

Die 10 Hebel (Quick-Reference)

#HebelEffektAufwand
1Application Inference Profile pro Caller + TagsSichtbarkeit pro Caller in Cost Explorer1h
2AWS Budget + (optional Action mit IAM-Restrict)Notbremse gegen Runaway-Cost30min
3max_tokens Hard-Cap + Stop-Sequences pro Callerverhindert ungezuegelten Output, schuetzt vor Loops1h
4MCP-Tool-Description-Audit + CutdownAnthropic-Pattern: bis 50% Input-Reduktion bei Tool-heavy Agents3-4h
5System-Prompt + RAG-Tuning (Top-K, Chunk-Size)50-70% Input-Reduktion bei RAG-Use-Cases2h
6Prompt-Caching 1h-TTL als Defaultbis 90% Rabatt auf Cache-Reads bei statischem System-Prompt1h pro Caller
7Embeddings: Titan v2 statt Cohere Multilingual wo DE-only5x billiger pro Embedding1 Nachmittag
8Modell-Routing Haiku-Firstdrastisch billiger fuer Background-Tasksparallel-Session
9Batch-Inference fuer Async-Workloads50% Rabatt vs On-Demand1-2h pro Caller
10Bedrock Service-Quotas drosselnHard-Stop fuer Runaway-Loops30min

Anti-Patterns (gesehen in av-production Mai 2026)

Anti-PatternBefund
TASK_MODEL=claude-sonnet-4-6 in Open-WebUIBackground-Tasks (Title-Gen, Tag-Gen, Search-Query-Gen) laufen auf Sonnet statt Haiku. 60-70% der Sonnet-Calls sind Background. Quick-Win: TASK_MODEL=Haiku.
thinking.budget_tokens=4096 in DEFAULT_MODEL_PARAMSExtended Thinking AN ohne Use-Case. Output-Token-Kosten.
max_tokens=8192 DefaultLLM kann ohne Hardcap explodieren bei Loop-Bug.
Caching deklariert aber 0 Cache-ReadsLiteLLM-Config cache_control_injection_points: [{location: message, role: system}] allein reicht nicht — Bedrock-Converse-API erwartet cachePoint-Bloecke an anderen Stellen.
1M-Context-Beta versehentlich aktiv2x Input-Preis ueber 200k Tokens. Aktuell sieht’s wie ein einmaliger Test aus, aber Pattern blockieren.
CloudTrail-Lookup fuer Bedrock-Callerleer, weil InvokeModel ein Data-Event ist. Stattdessen: Bedrock Model-Invocation-Logging aktivieren ODER ueber CloudWatch-Metrics korrelieren.

Pflicht-Hooks fuer andere Skills

  • mcp-eigenbau: vor Live-Gang audit-checklist.md durchlaufen — Token-Footprint pro Tool < 3000 Tokens, max_tokens-Cap gesetzt.
  • routine-anlegen: im 6-Fragen-Brief Pflicht-Punkt max_tokens-Cap + AIP-ARN.

(Implementierung in Phase 6 des bedrock-cost-optimize-Projekts.)

Verwandte Doku

  • Projekt _index — erstmalige Anwendung mit allen Findings
  • mcp-best-practices — wird in Phase 6 um Token-Footprint-Sektion erweitert
  • _index — AWS-Account-Struktur, IAM-Roles