EU-DSGVO Low-Latency Voice-Stack — Recherche

Stand Mai 2026. Use-Case: WhatsApp-Voice-Note rein (5-30 Sek), KI-Voice-Note raus. Strikt DSGVO — keine US-Anbieter im Datenpfad, auch nicht via EU-Region.

Kern-Erkenntnis vorneweg: Voxtral hat sich seit Marvins urspruenglicher Annahme grundlegend veraendert. Mistral hat zwischen Feb und Maerz 2026 zwei neue Modell-Familien releast die den Plan auf den Kopf stellen — Voxtral Realtime ASR (sub-200ms streaming, $0.006/min) und Voxtral TTS 4B (70ms Modell-Latenz, 9 Sprachen inkl. Deutsch). Der alte „Voxtral Small 24B als audio-in LLM” ist immer noch da, aber fuer das WhatsApp-Voice-Note-Szenario ist der Audio-LLM-Use-Case nicht mehr der schnellste Weg — die Pipeline ASR → Text-LLM → TTS ist mit den neuen Modellen klar im Vorteil.

1. Mistral Voxtral — Stand Mai 2026

Drei separate Modell-Linien, oft verwechselt:

  • Voxtral Small 24B 2507 — audio-in Chat-Model (Mistral Small 3.1 + Audio-Encoder). 30 Min Transcription, 40 Min Understanding, Function Calling aus Voice, 32k Context. Apache 2.0. Verfuegbar auf La Plateforme + Bedrock + Scaleway. Aber: kein Streaming-Audio-Output, processes audio in 30s chunks. Latenz fuer 10s Audio realistisch 2-4s TTFT (kein offizieller Benchmark gefunden).
  • Voxtral Mini Transcribe V2 (Feb 2026) — batch transcription, $0.003/min, 13 Sprachen inkl. Deutsch, ~4% WER FLEURS, ~3x schneller als ElevenLabs Scribe v2.
  • Voxtral Realtime (Feb 2026) — novel streaming architecture, transkribiert Audio waehrend es ankommt (nicht chunked), konfigurierbare Latenz down to sub-200ms, $0.006/min. Open weights auf HuggingFace plus API. Bei 480ms Delay 1-2% WER. Das ist der Game-Changer fuer Streaming-ASR.
  • Voxtral TTS 4B 2603 (Maerz 2026) — open-weight Streaming-TTS, 70ms Modell-Latenz fuer 10s Audio, RTF ~9.7x, Deutsch nativ unterstuetzt, Voice-Cloning ab 3s Referenz. Hat die offizielle Mistral-API ($0.016/1k chars). Achtung Lizenz: Open-weights sind CC BY-NC (nicht kommerziell). API ist kommerziell. Marvin muss bei Self-Host die NC-Lizenz beachten — fuer Kunden-Use-Case → API-Pfad ueber Mistral oder warten ob Scaleway/OVH den hostet.

Tool-Use-Qualitaet: Voxtral Small hat Function-Calling direkt aus Audio („Du sagst was, Modell ruft Tool”). Bei reiner ASR→Text→Mistral-Medium-3.5-Pipeline ist Tool-Use natuerlich identisch zu Medium 3.5 (was Marvin schon kennt).

Hosting EU-Sovereign:

  • Scaleway Generative APIs (Paris) hat Voxtral Small 24B im Katalog, EU-Datacenter, Pricing pro 1k Tokens (Umstellung April 2026). Ob Voxtral Realtime + TTS schon drin sind: unklar — Scaleway hat ein offenes Feature-Request „Voxtral Small/Mini in Generative APIs”. Marvin sollte das vor Commitment direkt bei Scaleway pruefen.
  • OVH AI Endpoints (Frankreich/DE) — GDPR-compliant, hat Mistral Nemo + ASR/TTS-Modelle, Voxtral nicht namentlich bestaetigt im Katalog. Eher nicht.
  • Mistral La Plateforme selbst — Mistral ist franzoesisches Unternehmen, Server in Schweden/Frankreich, GDPR-Compliance bestaetigt. Default fuer den Pragmatic-Weg.

2. Andere EU-Sovereign Audio-LLMs

Knappes Feld:

  • Aleph Alpha Pharia-AI — kein Audio-Input nachweisbar. Multimodal nur Text+Image. Plus Cohere-Aleph-Alpha-Merger im April 2026 verwaessert die Sovereign-Story.
  • Stability AI / Cohere EU — kein relevantes Audio-LLM.
  • DeepSeek-Audio / Qwen-Audio (open weights) — chinesische Modelle, koennen auf EU-Infra self-hosted werden. DSGVO-Frage haengt am Hosting, nicht am Model. Aber: kein direkter EU-Sovereign-Provider hostet sie aktuell als Service.

Fazit: Voxtral (via Mistral / Scaleway) ist faktisch die einzige ernsthafte EU-Sovereign Audio-LLM-Option im Mai 2026.

3. Streaming-ASR EU-Sovereign

  • Speechmatics (UK, GDPR-Adequacy-Land) — sub-150ms real-time, EU-Data-Residency moeglich. $0.0117/min (ca. 4x teurer als Voxtral Realtime). Beste Accuracy laut eigenem Marketing (25-70% weniger Errors als MS/Assembly/Deepgram). Realistisch fuer Premium-Kunden, nicht fuer Marvins KMU-Tarif.
  • Self-hosted faster-whisper mit WebSocket-Streaming — fuer Realtime <200ms braucht es RTX 4090 / RTX 6000 Ada. RTX 3060 (12 GB) reicht fuer „real-time aber nicht ultra-low-latency”. Auf Hetzner: GEX44 (RTX 4000 SFF Ada 20GB, 184 EUR/Monat, FSN/NBG EU) — gute Mittelklasse, sollte large-v3 in float16 mit 200-400ms erste-Worte-Latenz schaffen (kein direkter Benchmark gefunden, Werte extrapoliert).
  • NVIDIA Riva self-hosted — Open-Source, ultra-low-Latency, aber komplexes Deployment (Triton + Riva-Server). Auf GEX44 machbar, Setup-Aufwand 1-2 Tage.

Pragmatic-Empfehlung: Voxtral Realtime via Mistral-API schlaegt alle Self-Host-Optionen auf Kosten + Setup-Aufwand bis ca. 10.000 Min/Monat (= 60 EUR).

4. EU-Sovereign TTS — Alternativen zu Supertonic 3

  • Voxtral TTS 4B (siehe oben) — 70ms Modell-Latenz, Deutsch nativ, klar bester EU-Streaming-TTS Mai 2026. Lizenz-Klemme NC bei open-weights, API kommerziell ok.
  • Supertonic 3 — On-Device ONNX, 31 Sprachen (inkl. Deutsch). On-CPU bereits real-time. Bleibt valide als Self-Host-Fallback.
  • Kokoro 82M — Apache 2.0, 96x realtime auf basic GPU, aber kein Deutsch in den unterstuetzten Sprachen. Raus fuer den Use-Case.
  • Coqui XTTS-v2 — Deutsch unterstuetzt, sub-200ms Streaming, aber GPU-Pflicht (CPU zu langsam). Zusaetzlich: Coqui ist eingestellt, idiap-Fork lebt weiter.
  • Cartesia EU-Region — Cartesia ist US-Anbieter, EU-Region existiert. Faellt unter Marvins Ausschluss-Kriterium („auch nicht via EU-Region eines US-Konzerns”). Raus.
  • Smallest.ai Lightning — UK/Indien, kein klares DSGVO-Statement. Raus.

Streaming-TTS first-audio-byte unter 500ms: Voxtral TTS und Coqui-XTTS-Streaming schaffen das im EU-Sovereign-Pfad.

5. Hetzner GPU 2026

  • GEX44 — RTX 4000 SFF Ada, 20 GB GDDR6, 306 TFLOPS Tensor, Intel i5-13500, 64 GB RAM, 2x 1.92 TB NVMe. 184 EUR/Monat + 79 EUR Setup. EU (FSN/NBG/HEL). Ist die richtige Klasse fuer Voxtral Mini 4B Realtime + XTTS-v2 + faster-whisper-large-v3 gemeinsam auf einer Box.
  • GEX130/131 — RTX PRO 6000 Blackwell, 96 GB VRAM, 889 EUR/Monat. Overkill fuer Marvins Use-Case, sinnvoll wenn er auch Mistral Medium 3.5 self-hosten will.

Realistische Latenz auf GEX44 (extrapoliert, kein eigener Benchmark): faster-whisper large-v3 ~200-400ms first-word, Voxtral Mini 4B Realtime ~150-300ms TTFT, XTTS-v2 Streaming ~200ms first-audio-byte. Total: ~1-2 Sek end-to-end fuer 10s-Voice-Note-In.

Kostenrechnung: GEX44 = 184 EUR/Monat fix. Voxtral-Realtime-API bei 5h Audio/Monat = 1.80 EUR. Self-Host lohnt nur ab ~500h Audio-Volumen pro Monat oder bei strikter „nichts verlaesst die Box”-Vorgabe. Fuer einen Voice-Bot-Pilot ist API klar billiger.

6. Architektur — Streaming-First fuer ultra-low-Latency

Parallele Pipeline ist Pflicht: ASR streamt Tokens raus → LLM ab erstem Token Generierung starten → TTS ab erstem LLM-Token Generierung starten. Sequential ist tot fuer <2s TTFA.

WhatsApp-Constraint: Voice-Notes brauchen komplette OGG/Opus-Datei als Output (kein Streaming-Upload-Endpoint in der Meta Cloud API, auch im Voice-Beta-Programm nicht). Heisst: TTS muss komplettes Audio-File erzeugen bevor Upload. First-audio-byte-Optimierung bringt clientseitig nichts — was zaehlt ist Total-TTFA (Time-to-Full-Audio).

Konsequenz fuer die Architektur: Streaming-ASR + Streaming-LLM lohnt sich trotzdem (LLM-Antwort liegt frueher fertig vor), Streaming-TTS lohnt sich nur wenn das TTS schneller fertig wird als Batch — bei Voxtral TTS mit RTF 9.7x ist Batch ohnehin schon ~1s fuer typische Antworten.

7. Konkrete Empfehlung

Variante „Pragmatic” — heute Abend startbar

WhatsApp Voice-Note in (OGG/Opus)
  → Mistral-API: Voxtral Realtime (streaming ASR, sub-200ms)
  → Mistral-API: Mistral Medium 3.5 (Text-LLM mit Tool-Use, streaming)
  → Mistral-API: Voxtral TTS (70ms TTFA, Deutsch, batch fuer komplettes OGG)
  → WhatsApp upload

Setup: nur API-Keys + Code. Hosting bleibt Marvins cx23 fuer Glue-Code, kein GPU noetig.

Latenz-Schaetzung TTFA total: 1.5-2.5 Sek end-to-end fuer 10s-Voice-Note. Bottleneck ist WhatsApp-Upload (Meta-API, 200-500ms) und die LLM-Generierung (~500-1000ms fuer kurze Antwort).

Kosten: ~0.06 EUR pro 10-Min-Voice-Dialog (Audio + Text + TTS). Bei 100 Dialogen/Tag = 180 EUR/Monat.

DSGVO: Mistral SAS franzoesisch, AVV verfuegbar, EU-Region. Sauber.

Variante „Premium” — 1-2 Tage Setup

Hetzner GEX44 (184 EUR/Mo) mit:

  • faster-whisper large-v3 mit WebSocket-Streaming-Server (float16, ~200-400ms first-word)
  • Mistral Small 3.2 oder Voxtral Small 24B lokal via vLLM (Voxtral Small braucht 50+ GB VRAM bei fp16 → bricht auf GEX44, daher Mistral Small 3.2 in fp8 ~16 GB)
  • Voxtral TTS 4B open-weights (aber NC-Lizenz! → Alternativ XTTS-v2 oder Supertonic 3)
  • alles im selben Prozess oder via gRPC

Latenz TTFA: 1-1.5 Sek end-to-end, weil kein API-Round-Trip nach extern.

Kosten: 184 EUR/Mo fix unabhaengig vom Volumen. Lohnt ab ~3000 Dialog-Minuten/Monat oder bei Industriekunden mit „nichts verlaesst die Box”-Vorgabe.

DSGVO: alles auf Hetzner, Marvin kontrolliert komplett. Bester Pitch fuer Becker-aehnliche Industriekunden.

Variante „Best in Class” — was theoretisch geht

Hetzner GEX131 (889 EUR/Mo, RTX PRO 6000 96GB) mit:

  • Voxtral Realtime open weights als Streaming-ASR (sub-200ms, kein API-Round-Trip)
  • Voxtral Small 24B lokal (audio-in mit native tool use, fp16 passt rein) — ersetzt die ASR-LLM-Trennung wo Latenz nicht zaehlt aber Reasoning aus Audio direkt gewollt ist
  • Voxtral TTS 4B als Streaming-Generator
  • alles ueber einen Triton-Inference-Server / vLLM, mit Audio-Pipeline in Rust/Go fuer minimale Overhead

Latenz TTFA: 800ms - 1.2 Sek end-to-end. Theoretisches Minimum gegeben WhatsApp-Upload-Constraint.

Kosten: 889 EUR/Mo fix. Lohnt sich erst bei Multi-Kunde-Hosting mit > 50.000 Voice-Note-Minuten/Monat.

DSGVO: Maximum.

Empfehlung fuer Marvin

Variante Pragmatic starten. Voxtral Realtime + Mistral Medium 3.5 + Voxtral TTS-API zusammen schlagen den urspruenglichen Voxtral-Small-Plan deutlich (5-7s → 1.5-2.5s), kosten kaum etwas im Pilot, und Marvin kann Variante Premium nachschieben sobald entweder (a) ein DSGVO-strenger Industriekunde es verlangt oder (b) das Volumen die 184 EUR/Mo Self-Host rechtfertigt.

Die ueberraschende Sache: Voxtral TTS (Maerz 2026) macht Supertonic 3 als TTS-Default obsolet, wenn Marvin den API-Pfad geht. Self-Host bleibt Supertonic 3 wegen der CC-BY-NC-Lizenz auf Voxtral-TTS-Weights die richtige Wahl.

Quellen