LLM-Hosting EU-Souverän — 3 Optionen

Bei DSGVO-strengen Industriekunden (Becker, Voit-artige) reicht ein „AWS Bedrock Frankfurt” nicht — der US CLOUD Act gilt für jede US-Firma unabhängig vom physischen Server-Standort. Diese Datei vergleicht drei Optionen mit aufsteigender Souveränität, plus die separate Frage App+DB-Hosting (Cloud vs On-Premise).

Anthropic Claude API direkt ist für deutsche Industriekunden nicht DSGVO-konform empfehlbar — Server in den USA. Wenn Claude gewünscht ist, läuft das über AWS Bedrock mit eu.-Inference-Profile (siehe Option A unten).

CLOUD-Act-Hintergrund

Der US CLOUD Act (2018) erlaubt US-Behörden, von US-Unternehmen die Herausgabe von Daten zu verlangen — unabhängig davon wo die Daten physisch gespeichert sind. Das gilt für AWS, Microsoft, Google und Anthropic-API direkt. Selbst wenn das Rechenzentrum in Frankfurt steht: solange der Anbieter eine US-Firma ist, greift der CLOUD Act.

Praktisch ist die Wahrscheinlichkeit eines tatsächlichen Zugriffs gering — aber für Compliance-Argumentation gegenüber DSGVO-Auditoren / Industriekunden / Datenschutzbeauftragten ist es ein hartes Argument. EU-souveräne Anbieter (französisch, deutsch) eliminieren das Risiko strukturell.

Vergleichs-Tabelle (3 LLM-Hosting-Optionen)

A — AWS BedrockB — Mistral La PlateformeC — Self-Hosted Hetzner
AnbieterAmazon Web Services, USMistral AI, FrankreichHetzner DE, von uns betrieben
Server-StandortFrankfurt (eu-central-1), EU-Routing über eu.-ProfileParisFrankfurt oder Falkenstein
CLOUD Act betroffenTheoretisch jaNeinNein
DSGVO-konform für DE-IndustriekundenBedingt (mit eu.-Profil + AVV — bleibt formaler Reibungspunkt)JaJa
Top-ModellClaude Opus 4.7Mistral Large 3Llama 3.3 70B FP8 / DeepSeek-Distill
Modell-AuswahlSehr breit (~31 FMs Multi-Provider)Eng aber stark (Mistral-Eigenwerk)Frei wählbar (Open-Source)
Modell-Qualität Top-TierTop (Claude Opus)Sehr gut (Large 3 unter Claude Opus)Solide (auf Mistral-Large-Niveau)
Kosten ~100 Anfragen/Mo~€0,50~€1–3~€184–1.058 fix
Skaliert kostenmäßiglinear pay-per-uselinear pay-per-usefix bis Hardware-Limit
Ops-Aufwand bei unsminimalminimalmittel (vLLM, Updates, Monitoring)
Anbieter-Lock-inniedrig (Multi-Provider)mittel (ein Anbieter)niedrig (Open Weights)
AVV-fähigmit AWSmit Mistralmit Hetzner

Default-Empfehlung

Option B (Mistral La Plateforme) für die meisten DSGVO-strengen Kunden. Bester Kompromiss aus Modell-Qualität, EU-Souveränität (Frankreich = EU-Rechtsraum, kein CLOUD Act) und Kosten. La Plateforme ist die kommerzielle API von Mistral AI.

Option C (Self-Hosted Hetzner) in zwei Szenarien:

  • Volumen ist hoch (>2.000–5.000 Anfragen/Monat) → fixe Server-Kosten amortisieren sich
  • Kunde fordert „Daten verlassen DE-RZ niemals” als harte Compliance-Anforderung
  • Plus-Aufwand: vLLM-Setup, Modell-Updates, Inference-Monitoring → muss in Sprint-Budget eingepreist sein

Option A (AWS Bedrock) wenn:

  • Kunde explizit Claude-Qualität braucht und Cloud Act akzeptiert (mit eu.-Inference-Profile + AVV)
  • Multi-Provider-Story unter einem Dach gewünscht ist (Anthropic, Mistral, Llama, Nova, Cohere)
  • Bei reinen DSGVO-Industrie-Audits bleibt es formaler Reibungspunkt — vorab im Hosting-Konzept erwähnen

Modell-Listen pro Option

Option A — AWS Bedrock eu-central-1

Frankfurt hostet ~31 Foundation Models von ~17 Publishern. Wichtig: für reines EU-Routing immer eu.-Inference-Profile nutzen, nicht das Stamm-Modell-ID ohne Präfix.

Anthropic Claude (über eu.-Profile):

  • Claude Opus 4.7 (eu.anthropic.claude-opus-4-7-...) — Top-Reasoning, Coding, Long-Context-Agents
  • Claude Opus 4.6 / 4.5 / 4.1 — günstigere Vorgänger
  • Claude Sonnet 4.6 (eu.anthropic.claude-sonnet-4-6-...) — Standard-Agent, 1M Context
  • Claude Sonnet 4.5 / Sonnet 4 — etabliert für Production
  • Claude Haiku 4.5 (eu.anthropic.claude-haiku-4-5-...) — schnell + günstig
  • Claude 3.5 Haiku — Legacy

Meta Llama:

  • Llama 3.3 70B Instruct, Llama 3.2 (1B/3B/11B/90B), Llama 3.1 (8B/70B/405B), Llama 4 Scout 17B (10M Context), Llama 4 Maverick 17B

Mistral AI:

  • Mistral Large 3 (Flagship), Mistral Large 2407, Mistral Small, Mixtral 8x7B, Mistral 7B, Pixtral Large, Devstral 2 123B, Magistral Small, Voxtral Mini/Small, Ministral 3B/8B/14B

Amazon Nova:

  • Nova Premier (Top), Nova Pro / Lite / Micro (Standard-Skala), Nova 2 Lite / 2 Sonic, Nova Sonic (Voice), Nova Canvas (Image), Nova Reel (Video), Titan Text/Multimodal Embeddings, Nova Multimodal Embeddings

Cohere:

  • Command R+, Command R (RAG-optimiert), Embed English / Multilingual / v4, Rerank 3.5

AI21 Labs:

  • Jamba 1.5 Large (256K Context, Hybrid SSM+Transformer), Jamba 1.5 Mini

Stability AI (Image):

  • Stable Image Conservative/Creative/Fast Upscale, Control Sketch/Structure, Inpaint, Outpaint, Erase Object, Remove Background, Search & Recolor, Search & Replace, Style Guide, Style Transfer

Option B — Mistral La Plateforme (USD pro 1M Tokens)

ModellInputOutputContextUse-Case
Mistral Large 3$2,00$6,00128KFlagship, Reasoning + Multilingual
Mistral Large 2$2,00$6,00128KVorgänger
Mistral Medium 3$0,40$2,00Mittlere Klasse
Mistral Small 3$0,10$0,30128KStandard
Mistral Nemo$0,02$0,04Cheapest
Codestral$0,30$0,9032KCode-Completion + Fill-in-the-Middle
Devstral 2 (123B)$0,40$0,90262KCoding-Agents
Devstral Small 1.1 (24B)$0,07$0,28131KGünstigerer Coding-Agent (im Free Tier)
Ministral 3B / 8B0,100,10Edge / On-Device
Mixtral 8x22B$2,00$6,00Sparse MoE
Pixtral Large$2,00$6,00Multimodal Flagship
Magistral Small$0,50$1,50Reasoning
Mistral Embed$0,10Text-Embeddings für RAG
Mistral OCR$2 / 1.000 SeitenDocument Understanding (Tabellen, Formeln, Layout)
Voxtral Mini / Smallk.A.k.A.Audio

Free Tier mit täglicher Quota verfügbar, ohne Kreditkarte. Devstral Small ist im Free Tier inkludiert.

Option C — Self-Hosted Hetzner

Hardware-Auswahl April 2026:

ServerGPUVRAMPreis/MonatSetupSweet Spot
GEX44RTX 4000 SFF Ada20 GB€184,00€79bis 13B FP16 / 30B Q4
GEX130RTX 6000 Ada48 GB€838,00€7970B Q4/IQ2, MoE Mixtral 8x7B FP16
GEX131RTX PRO 6000 Blackwell96 GB€1.057,91k.A.70B FP8 single-GPU Production, große MoE

Modell-Universum (Open Weights, gängige Wahl):

  • Llama 3.3 70B Instruct — De-Facto-Standard 70B-Klasse, gute Tool-Use
  • Llama 3.2 1B / 3B / 11B / 90B — Edge bis Multimodal
  • Llama 4 Scout / Maverick — MoE, große Kontextfenster
  • Mistral Open Weights — Mistral 7B, Mistral Nemo 12B, Mixtral 8x7B / 8x22B, Mistral Large 2 (Open Weights)
  • Qwen 2.5 7B / 14B / 32B / 72B — sehr gute Multilingual-Performance (Deutsch stark), Coder-/Math-Varianten
  • DeepSeek V3 (671B MoE) + DeepSeek R1 — Top-Open-Reasoning, oft als Distill auf Llama 70B / Qwen 32B
  • Phi-4 (14B) — starke Performance pro Parameter, kompakt, läuft auf GEX44
  • Gemma 2 9B / 27B — Google-Open-Source, solide

Inferenz-Stack: vLLM für Production, Ollama für Dev/Demo, llama.cpp wenn CPU-Pfad benötigt.

Argumentation gegenüber Kunde

Beim Pitch / Termin alle drei Optionen tabellarisch zeigen — schafft Vertrauen („wir verstecken nichts”), Kunde wählt mit. Standardsatz:

„Die KI-Calls laufen über Mistral AI, ein französisches Unternehmen mit Servern in Frankreich. Damit haben wir keinerlei Berührungspunkte mit US-Recht — kein CLOUD Act, kein FISA, keine US-Behördenanfragen möglich. Falls Sie maximale Datenhoheit bevorzugen (Daten verlassen DE-RZ nie), ist Self-Hosted bei Hetzner unsere Empfehlung. AWS Bedrock mit Claude bleibt verfügbar, falls Sie Top-Reasoning-Qualität priorisieren — die Architektur ist providerunabhängig, ein späterer Wechsel ist möglich.”

Provider-unabhängige Architektur (Pflicht)

Egal welche Option gewählt wird: die Anbindung muss so gebaut sein, dass der LLM-Provider austauschbar ist. Konkret:

  • Eine eigene Adapter-Schicht zwischen Anwendungs-Code und LLM-API (OpenAI-kompatibel als kleinster Nenner; alle drei Optionen unterstützen einen OpenAI-kompatiblen Modus oder lassen sich per LiteLLM/Aisuite wrappen)
  • Prompt-Format provider-agnostisch (kein Anthropic-spezifischer Tool-Use ohne Fallback, kein Mistral-spezifisches Function-Calling als einziger Pfad)
  • Wechsel A → B oder B → C = Adapter-Implementierung tauschen, kein Refactor des Anwendungs-Codes
  • Standardpattern: LiteLLM als Proxy davorschalten, dann ist der Wechsel eine Konfigurations-Zeile

Dies ist gleichzeitig technisches Argument („kein Lock-in”) und Vertrauenssignal („ihr seid nicht gefangen wenn ihr euch falsch entscheidet”). Marvin priorisiert Provider-Unabhängigkeit als Architektur-Pflicht.

App + DB Hosting (separater Layer)

Für die Anwendung selbst (Backend + Datenbank) ist die Empfehlung unabhängig vom LLM-Provider:

  • Default: Hetzner Frankfurt Cloud — deutsches Unternehmen, RZ Frankfurt, AVV-fähig, ~€30–50/Monat. DSGVO komplett gelöst.
  • Alternative: On-Premise beim Kunden — möglich aber nicht empfohlen.

Argumente Pro Cloud (Hetzner)

  1. Wartung & Sicherheit: Updates innerhalb von Stunden, zentrales Monitoring, automatisierte Backups in zweite RZ-Location. Bei On-Prem müsste Kunden-IT das machen oder es bleibt liegen.
  2. Verfügbarkeit: RZ-Klasse Stromversorgung, redundante Internet-Anbindung, USV, Klimatisierung. Stirbt eine Festplatte, läuft es weiter.
  3. Skalierbarkeit: Mehr Last → Leistung in 5 Minuten verdoppeln.
  4. DSGVO ist gelöst: Hetzner ist deutsches Unternehmen, Frankfurt-RZ, AVV-fähig — keine Souveränitäts-Lücke gegenüber On-Prem.
  5. Kosten: ~€30–50/Monat vs. ~€3.000–5.000 einmalig Server + ~€500/Jahr Strom/Wartung + alle 4–5 Jahre Hardware-Refresh.
  6. Wir können remote schnell helfen: kein VPN-Setup, kein Vor-Ort-Service.

Wann On-Prem doch Sinn macht

  • Strenge Branchen-Regulatorik (Defence, Pharma, kritische Infrastruktur). Trifft auf B2B-Industriekunden meist nicht zu.
  • Politische Vorgabe „Daten verlassen das Werk niemals”. Bei Anfrage-Daten / B2B-Kalkulationen ist das nicht verhältnismäßig.

Was bei jedem Projekt zu tun ist

  1. Mit Kunde klären: CLOUD Act ein Thema? Wenn ja → Option B/C
  2. Tabelle mit allen Optionen im Hosting-Konzept dokumentieren
  3. Default empfehlen, Begründung schreiben, Eskalationspfad nennen
  4. AVV mit gewähltem Provider abschließen
  5. VVT-Eintrag beim Kunden ergänzen (Provider als Auftragsverarbeiter)
  6. Im Sprint-Budget bei Option C den Mehraufwand für Self-Hosting kalkulieren
  7. Bei Option A: zwingend eu.-Cross-Region-Inference-Profile nutzen, nicht das Stamm-Modell ohne Präfix

Lessons Learned

2026-04-25 — Becker: Bei Hosting-Konzept zuerst AWS Bedrock Frankfurt vorgeschlagen mit Argument „DSGVO-konform durch EU-Region”. Marvin/Becker hat sofort den CLOUD-Act-Punkt eingebracht. Default seitdem Mistral La Plateforme, AWS nur noch als eine der Optionen erwähnt — nicht mehr als Default empfohlen.

2026-04-27 — Korrektur Modell-Universum + IONOS-Streichung (Marvins Direktive): Drei Korrekturen am Vorgänger-Stand:

  1. IONOS AI Hub aus dem Kanon gestrichen. Kein vierter Anbieter mehr — fokus auf drei produktive Optionen statt Alibi-Auswahl.
  2. Anthropic Claude API direkt fließt nicht in die Empfehlungs-Optionen. Server in den USA, kein DSGVO-konformer Pfad für deutsche Industriekunden. Wenn Claude gewünscht ist, läuft das über AWS Bedrock mit eu.-Inference-Profile.
  3. Modell-Listen pro Option deutlich verbreitert. Bisher war pro Option nur das Default-Modell genannt — jetzt vollständige Lineups (Bedrock 17 Publisher / 31 FMs, Mistral 15+ Modelle inkl. Devstral/Codestral/OCR/Embed/Voxtral, Self-Hosted komplettes Open-Source-Universum). Grund: Kunde soll ehrliche Auswahl sehen, nicht Marketing-Stichworte. Recherche-Bericht: ../../runs/2026-04-27-research-llm-hosting-modelle-eu/01-bericht.md.