LLM-Hosting EU-Souverän — 3 Optionen
Bei DSGVO-strengen Industriekunden (Becker, Voit-artige) reicht ein „AWS Bedrock Frankfurt” nicht — der US CLOUD Act gilt für jede US-Firma unabhängig vom physischen Server-Standort. Diese Datei vergleicht drei Optionen mit aufsteigender Souveränität, plus die separate Frage App+DB-Hosting (Cloud vs On-Premise).
Anthropic Claude API direkt ist für deutsche Industriekunden nicht DSGVO-konform empfehlbar — Server in den USA. Wenn Claude gewünscht ist, läuft das über AWS Bedrock mit eu.-Inference-Profile (siehe Option A unten).
CLOUD-Act-Hintergrund
Der US CLOUD Act (2018) erlaubt US-Behörden, von US-Unternehmen die Herausgabe von Daten zu verlangen — unabhängig davon wo die Daten physisch gespeichert sind. Das gilt für AWS, Microsoft, Google und Anthropic-API direkt. Selbst wenn das Rechenzentrum in Frankfurt steht: solange der Anbieter eine US-Firma ist, greift der CLOUD Act.
Praktisch ist die Wahrscheinlichkeit eines tatsächlichen Zugriffs gering — aber für Compliance-Argumentation gegenüber DSGVO-Auditoren / Industriekunden / Datenschutzbeauftragten ist es ein hartes Argument. EU-souveräne Anbieter (französisch, deutsch) eliminieren das Risiko strukturell.
Vergleichs-Tabelle (3 LLM-Hosting-Optionen)
| A — AWS Bedrock | B — Mistral La Plateforme | C — Self-Hosted Hetzner | |
|---|---|---|---|
| Anbieter | Amazon Web Services, US | Mistral AI, Frankreich | Hetzner DE, von uns betrieben |
| Server-Standort | Frankfurt (eu-central-1), EU-Routing über eu.-Profile | Paris | Frankfurt oder Falkenstein |
| CLOUD Act betroffen | Theoretisch ja | Nein | Nein |
| DSGVO-konform für DE-Industriekunden | Bedingt (mit eu.-Profil + AVV — bleibt formaler Reibungspunkt) | Ja | Ja |
| Top-Modell | Claude Opus 4.7 | Mistral Large 3 | Llama 3.3 70B FP8 / DeepSeek-Distill |
| Modell-Auswahl | Sehr breit (~31 FMs Multi-Provider) | Eng aber stark (Mistral-Eigenwerk) | Frei wählbar (Open-Source) |
| Modell-Qualität Top-Tier | Top (Claude Opus) | Sehr gut (Large 3 unter Claude Opus) | Solide (auf Mistral-Large-Niveau) |
| Kosten ~100 Anfragen/Mo | ~€0,50 | ~€1–3 | ~€184–1.058 fix |
| Skaliert kostenmäßig | linear pay-per-use | linear pay-per-use | fix bis Hardware-Limit |
| Ops-Aufwand bei uns | minimal | minimal | mittel (vLLM, Updates, Monitoring) |
| Anbieter-Lock-in | niedrig (Multi-Provider) | mittel (ein Anbieter) | niedrig (Open Weights) |
| AVV-fähig | mit AWS | mit Mistral | mit Hetzner |
Default-Empfehlung
Option B (Mistral La Plateforme) für die meisten DSGVO-strengen Kunden. Bester Kompromiss aus Modell-Qualität, EU-Souveränität (Frankreich = EU-Rechtsraum, kein CLOUD Act) und Kosten. La Plateforme ist die kommerzielle API von Mistral AI.
Option C (Self-Hosted Hetzner) in zwei Szenarien:
- Volumen ist hoch (>2.000–5.000 Anfragen/Monat) → fixe Server-Kosten amortisieren sich
- Kunde fordert „Daten verlassen DE-RZ niemals” als harte Compliance-Anforderung
- Plus-Aufwand: vLLM-Setup, Modell-Updates, Inference-Monitoring → muss in Sprint-Budget eingepreist sein
Option A (AWS Bedrock) wenn:
- Kunde explizit Claude-Qualität braucht und Cloud Act akzeptiert (mit
eu.-Inference-Profile + AVV) - Multi-Provider-Story unter einem Dach gewünscht ist (Anthropic, Mistral, Llama, Nova, Cohere)
- Bei reinen DSGVO-Industrie-Audits bleibt es formaler Reibungspunkt — vorab im Hosting-Konzept erwähnen
Modell-Listen pro Option
Option A — AWS Bedrock eu-central-1
Frankfurt hostet ~31 Foundation Models von ~17 Publishern. Wichtig: für reines EU-Routing immer eu.-Inference-Profile nutzen, nicht das Stamm-Modell-ID ohne Präfix.
Anthropic Claude (über eu.-Profile):
- Claude Opus 4.7 (
eu.anthropic.claude-opus-4-7-...) — Top-Reasoning, Coding, Long-Context-Agents - Claude Opus 4.6 / 4.5 / 4.1 — günstigere Vorgänger
- Claude Sonnet 4.6 (
eu.anthropic.claude-sonnet-4-6-...) — Standard-Agent, 1M Context - Claude Sonnet 4.5 / Sonnet 4 — etabliert für Production
- Claude Haiku 4.5 (
eu.anthropic.claude-haiku-4-5-...) — schnell + günstig - Claude 3.5 Haiku — Legacy
Meta Llama:
- Llama 3.3 70B Instruct, Llama 3.2 (1B/3B/11B/90B), Llama 3.1 (8B/70B/405B), Llama 4 Scout 17B (10M Context), Llama 4 Maverick 17B
Mistral AI:
- Mistral Large 3 (Flagship), Mistral Large 2407, Mistral Small, Mixtral 8x7B, Mistral 7B, Pixtral Large, Devstral 2 123B, Magistral Small, Voxtral Mini/Small, Ministral 3B/8B/14B
Amazon Nova:
- Nova Premier (Top), Nova Pro / Lite / Micro (Standard-Skala), Nova 2 Lite / 2 Sonic, Nova Sonic (Voice), Nova Canvas (Image), Nova Reel (Video), Titan Text/Multimodal Embeddings, Nova Multimodal Embeddings
Cohere:
- Command R+, Command R (RAG-optimiert), Embed English / Multilingual / v4, Rerank 3.5
AI21 Labs:
- Jamba 1.5 Large (256K Context, Hybrid SSM+Transformer), Jamba 1.5 Mini
Stability AI (Image):
- Stable Image Conservative/Creative/Fast Upscale, Control Sketch/Structure, Inpaint, Outpaint, Erase Object, Remove Background, Search & Recolor, Search & Replace, Style Guide, Style Transfer
Option B — Mistral La Plateforme (USD pro 1M Tokens)
| Modell | Input | Output | Context | Use-Case |
|---|---|---|---|---|
| Mistral Large 3 | $2,00 | $6,00 | 128K | Flagship, Reasoning + Multilingual |
| Mistral Large 2 | $2,00 | $6,00 | 128K | Vorgänger |
| Mistral Medium 3 | $0,40 | $2,00 | — | Mittlere Klasse |
| Mistral Small 3 | $0,10 | $0,30 | 128K | Standard |
| Mistral Nemo | $0,02 | $0,04 | — | Cheapest |
| Codestral | $0,30 | $0,90 | 32K | Code-Completion + Fill-in-the-Middle |
| Devstral 2 (123B) | $0,40 | $0,90 | 262K | Coding-Agents |
| Devstral Small 1.1 (24B) | $0,07 | $0,28 | 131K | Günstigerer Coding-Agent (im Free Tier) |
| Ministral 3B / 8B | 0,10 | 0,10 | — | Edge / On-Device |
| Mixtral 8x22B | $2,00 | $6,00 | — | Sparse MoE |
| Pixtral Large | $2,00 | $6,00 | — | Multimodal Flagship |
| Magistral Small | $0,50 | $1,50 | — | Reasoning |
| Mistral Embed | $0,10 | — | — | Text-Embeddings für RAG |
| Mistral OCR | $2 / 1.000 Seiten | — | — | Document Understanding (Tabellen, Formeln, Layout) |
| Voxtral Mini / Small | k.A. | k.A. | — | Audio |
Free Tier mit täglicher Quota verfügbar, ohne Kreditkarte. Devstral Small ist im Free Tier inkludiert.
Option C — Self-Hosted Hetzner
Hardware-Auswahl April 2026:
| Server | GPU | VRAM | Preis/Monat | Setup | Sweet Spot |
|---|---|---|---|---|---|
| GEX44 | RTX 4000 SFF Ada | 20 GB | €184,00 | €79 | bis 13B FP16 / 30B Q4 |
| GEX130 | RTX 6000 Ada | 48 GB | €838,00 | €79 | 70B Q4/IQ2, MoE Mixtral 8x7B FP16 |
| GEX131 | RTX PRO 6000 Blackwell | 96 GB | €1.057,91 | k.A. | 70B FP8 single-GPU Production, große MoE |
Modell-Universum (Open Weights, gängige Wahl):
- Llama 3.3 70B Instruct — De-Facto-Standard 70B-Klasse, gute Tool-Use
- Llama 3.2 1B / 3B / 11B / 90B — Edge bis Multimodal
- Llama 4 Scout / Maverick — MoE, große Kontextfenster
- Mistral Open Weights — Mistral 7B, Mistral Nemo 12B, Mixtral 8x7B / 8x22B, Mistral Large 2 (Open Weights)
- Qwen 2.5 7B / 14B / 32B / 72B — sehr gute Multilingual-Performance (Deutsch stark), Coder-/Math-Varianten
- DeepSeek V3 (671B MoE) + DeepSeek R1 — Top-Open-Reasoning, oft als Distill auf Llama 70B / Qwen 32B
- Phi-4 (14B) — starke Performance pro Parameter, kompakt, läuft auf GEX44
- Gemma 2 9B / 27B — Google-Open-Source, solide
Inferenz-Stack: vLLM für Production, Ollama für Dev/Demo, llama.cpp wenn CPU-Pfad benötigt.
Argumentation gegenüber Kunde
Beim Pitch / Termin alle drei Optionen tabellarisch zeigen — schafft Vertrauen („wir verstecken nichts”), Kunde wählt mit. Standardsatz:
„Die KI-Calls laufen über Mistral AI, ein französisches Unternehmen mit Servern in Frankreich. Damit haben wir keinerlei Berührungspunkte mit US-Recht — kein CLOUD Act, kein FISA, keine US-Behördenanfragen möglich. Falls Sie maximale Datenhoheit bevorzugen (Daten verlassen DE-RZ nie), ist Self-Hosted bei Hetzner unsere Empfehlung. AWS Bedrock mit Claude bleibt verfügbar, falls Sie Top-Reasoning-Qualität priorisieren — die Architektur ist providerunabhängig, ein späterer Wechsel ist möglich.”
Provider-unabhängige Architektur (Pflicht)
Egal welche Option gewählt wird: die Anbindung muss so gebaut sein, dass der LLM-Provider austauschbar ist. Konkret:
- Eine eigene Adapter-Schicht zwischen Anwendungs-Code und LLM-API (OpenAI-kompatibel als kleinster Nenner; alle drei Optionen unterstützen einen OpenAI-kompatiblen Modus oder lassen sich per LiteLLM/Aisuite wrappen)
- Prompt-Format provider-agnostisch (kein Anthropic-spezifischer Tool-Use ohne Fallback, kein Mistral-spezifisches Function-Calling als einziger Pfad)
- Wechsel A → B oder B → C = Adapter-Implementierung tauschen, kein Refactor des Anwendungs-Codes
- Standardpattern: LiteLLM als Proxy davorschalten, dann ist der Wechsel eine Konfigurations-Zeile
Dies ist gleichzeitig technisches Argument („kein Lock-in”) und Vertrauenssignal („ihr seid nicht gefangen wenn ihr euch falsch entscheidet”). Marvin priorisiert Provider-Unabhängigkeit als Architektur-Pflicht.
App + DB Hosting (separater Layer)
Für die Anwendung selbst (Backend + Datenbank) ist die Empfehlung unabhängig vom LLM-Provider:
- Default: Hetzner Frankfurt Cloud — deutsches Unternehmen, RZ Frankfurt, AVV-fähig, ~€30–50/Monat. DSGVO komplett gelöst.
- Alternative: On-Premise beim Kunden — möglich aber nicht empfohlen.
Argumente Pro Cloud (Hetzner)
- Wartung & Sicherheit: Updates innerhalb von Stunden, zentrales Monitoring, automatisierte Backups in zweite RZ-Location. Bei On-Prem müsste Kunden-IT das machen oder es bleibt liegen.
- Verfügbarkeit: RZ-Klasse Stromversorgung, redundante Internet-Anbindung, USV, Klimatisierung. Stirbt eine Festplatte, läuft es weiter.
- Skalierbarkeit: Mehr Last → Leistung in 5 Minuten verdoppeln.
- DSGVO ist gelöst: Hetzner ist deutsches Unternehmen, Frankfurt-RZ, AVV-fähig — keine Souveränitäts-Lücke gegenüber On-Prem.
- Kosten: ~€30–50/Monat vs. ~€3.000–5.000 einmalig Server + ~€500/Jahr Strom/Wartung + alle 4–5 Jahre Hardware-Refresh.
- Wir können remote schnell helfen: kein VPN-Setup, kein Vor-Ort-Service.
Wann On-Prem doch Sinn macht
- Strenge Branchen-Regulatorik (Defence, Pharma, kritische Infrastruktur). Trifft auf B2B-Industriekunden meist nicht zu.
- Politische Vorgabe „Daten verlassen das Werk niemals”. Bei Anfrage-Daten / B2B-Kalkulationen ist das nicht verhältnismäßig.
Was bei jedem Projekt zu tun ist
- Mit Kunde klären: CLOUD Act ein Thema? Wenn ja → Option B/C
- Tabelle mit allen Optionen im Hosting-Konzept dokumentieren
- Default empfehlen, Begründung schreiben, Eskalationspfad nennen
- AVV mit gewähltem Provider abschließen
- VVT-Eintrag beim Kunden ergänzen (Provider als Auftragsverarbeiter)
- Im Sprint-Budget bei Option C den Mehraufwand für Self-Hosting kalkulieren
- Bei Option A: zwingend
eu.-Cross-Region-Inference-Profile nutzen, nicht das Stamm-Modell ohne Präfix
Anbieter-Quicklinks
- Mistral La Plateforme — API-Konsole
- Mistral DPA / Compliance
- Mistral Pricing
- Hetzner GPU Server — Dedicated GPU-Lineup
- Hetzner GEX44 (€184/Mo, 20 GB VRAM)
- Hetzner GEX130 (€838/Mo, 48 GB VRAM)
- Hetzner GEX131 (€1.058/Mo, 96 GB VRAM)
- Hetzner DSGVO / AVV
- AWS Bedrock EU-Regions
- AWS Bedrock — Cross-Region Inference Profiles
- AWS Bedrock — Anthropic Claude Models
Lessons Learned
2026-04-25 — Becker: Bei Hosting-Konzept zuerst AWS Bedrock Frankfurt vorgeschlagen mit Argument „DSGVO-konform durch EU-Region”. Marvin/Becker hat sofort den CLOUD-Act-Punkt eingebracht. Default seitdem Mistral La Plateforme, AWS nur noch als eine der Optionen erwähnt — nicht mehr als Default empfohlen.
2026-04-27 — Korrektur Modell-Universum + IONOS-Streichung (Marvins Direktive): Drei Korrekturen am Vorgänger-Stand:
- IONOS AI Hub aus dem Kanon gestrichen. Kein vierter Anbieter mehr — fokus auf drei produktive Optionen statt Alibi-Auswahl.
- Anthropic Claude API direkt fließt nicht in die Empfehlungs-Optionen. Server in den USA, kein DSGVO-konformer Pfad für deutsche Industriekunden. Wenn Claude gewünscht ist, läuft das über AWS Bedrock mit
eu.-Inference-Profile. - Modell-Listen pro Option deutlich verbreitert. Bisher war pro Option nur das Default-Modell genannt — jetzt vollständige Lineups (Bedrock 17 Publisher / 31 FMs, Mistral 15+ Modelle inkl. Devstral/Codestral/OCR/Embed/Voxtral, Self-Hosted komplettes Open-Source-Universum). Grund: Kunde soll ehrliche Auswahl sehen, nicht Marketing-Stichworte. Recherche-Bericht:
../../runs/2026-04-27-research-llm-hosting-modelle-eu/01-bericht.md.
Related
- anthropic-datenschutz.md — CLOUD Act Hintergrund, AVV-Links, Produkt-Matrix Anthropic, Pflicht-Schritte DSGVO
- claude-dsgvo-setup.md — technischer Setup-Guide AWS Bedrock (für Kunden ohne CLOUD-Act-Bedenken)
- zugriffsmodell.md — wie Kundendaten grundsätzlich fließen
../../runs/2026-04-27-research-llm-hosting-modelle-eu/01-bericht.md— vollständiger Recherche-Bericht (April 2026)