EU-DSGVO Low-Latency Voice-Stack — Recherche
Stand Mai 2026. Use-Case: WhatsApp-Voice-Note rein (5-30 Sek), KI-Voice-Note raus. Strikt DSGVO — keine US-Anbieter im Datenpfad, auch nicht via EU-Region.
Kern-Erkenntnis vorneweg: Voxtral hat sich seit Marvins urspruenglicher Annahme grundlegend veraendert. Mistral hat zwischen Feb und Maerz 2026 zwei neue Modell-Familien releast die den Plan auf den Kopf stellen — Voxtral Realtime ASR (sub-200ms streaming, $0.006/min) und Voxtral TTS 4B (70ms Modell-Latenz, 9 Sprachen inkl. Deutsch). Der alte „Voxtral Small 24B als audio-in LLM” ist immer noch da, aber fuer das WhatsApp-Voice-Note-Szenario ist der Audio-LLM-Use-Case nicht mehr der schnellste Weg — die Pipeline ASR → Text-LLM → TTS ist mit den neuen Modellen klar im Vorteil.
1. Mistral Voxtral — Stand Mai 2026
Drei separate Modell-Linien, oft verwechselt:
- Voxtral Small 24B 2507 — audio-in Chat-Model (Mistral Small 3.1 + Audio-Encoder). 30 Min Transcription, 40 Min Understanding, Function Calling aus Voice, 32k Context. Apache 2.0. Verfuegbar auf La Plateforme + Bedrock + Scaleway. Aber: kein Streaming-Audio-Output, processes audio in 30s chunks. Latenz fuer 10s Audio realistisch 2-4s TTFT (kein offizieller Benchmark gefunden).
- Voxtral Mini Transcribe V2 (Feb 2026) — batch transcription, $0.003/min, 13 Sprachen inkl. Deutsch, ~4% WER FLEURS, ~3x schneller als ElevenLabs Scribe v2.
- Voxtral Realtime (Feb 2026) — novel streaming architecture, transkribiert Audio waehrend es ankommt (nicht chunked), konfigurierbare Latenz down to sub-200ms, $0.006/min. Open weights auf HuggingFace plus API. Bei 480ms Delay 1-2% WER. Das ist der Game-Changer fuer Streaming-ASR.
- Voxtral TTS 4B 2603 (Maerz 2026) — open-weight Streaming-TTS, 70ms Modell-Latenz fuer 10s Audio, RTF ~9.7x, Deutsch nativ unterstuetzt, Voice-Cloning ab 3s Referenz. Hat die offizielle Mistral-API ($0.016/1k chars). Achtung Lizenz: Open-weights sind CC BY-NC (nicht kommerziell). API ist kommerziell. Marvin muss bei Self-Host die NC-Lizenz beachten — fuer Kunden-Use-Case → API-Pfad ueber Mistral oder warten ob Scaleway/OVH den hostet.
Tool-Use-Qualitaet: Voxtral Small hat Function-Calling direkt aus Audio („Du sagst was, Modell ruft Tool”). Bei reiner ASR→Text→Mistral-Medium-3.5-Pipeline ist Tool-Use natuerlich identisch zu Medium 3.5 (was Marvin schon kennt).
Hosting EU-Sovereign:
- Scaleway Generative APIs (Paris) hat Voxtral Small 24B im Katalog, EU-Datacenter, Pricing pro 1k Tokens (Umstellung April 2026). Ob Voxtral Realtime + TTS schon drin sind: unklar — Scaleway hat ein offenes Feature-Request „Voxtral Small/Mini in Generative APIs”. Marvin sollte das vor Commitment direkt bei Scaleway pruefen.
- OVH AI Endpoints (Frankreich/DE) — GDPR-compliant, hat Mistral Nemo + ASR/TTS-Modelle, Voxtral nicht namentlich bestaetigt im Katalog. Eher nicht.
- Mistral La Plateforme selbst — Mistral ist franzoesisches Unternehmen, Server in Schweden/Frankreich, GDPR-Compliance bestaetigt. Default fuer den Pragmatic-Weg.
2. Andere EU-Sovereign Audio-LLMs
Knappes Feld:
- Aleph Alpha Pharia-AI — kein Audio-Input nachweisbar. Multimodal nur Text+Image. Plus Cohere-Aleph-Alpha-Merger im April 2026 verwaessert die Sovereign-Story.
- Stability AI / Cohere EU — kein relevantes Audio-LLM.
- DeepSeek-Audio / Qwen-Audio (open weights) — chinesische Modelle, koennen auf EU-Infra self-hosted werden. DSGVO-Frage haengt am Hosting, nicht am Model. Aber: kein direkter EU-Sovereign-Provider hostet sie aktuell als Service.
Fazit: Voxtral (via Mistral / Scaleway) ist faktisch die einzige ernsthafte EU-Sovereign Audio-LLM-Option im Mai 2026.
3. Streaming-ASR EU-Sovereign
- Speechmatics (UK, GDPR-Adequacy-Land) — sub-150ms real-time, EU-Data-Residency moeglich. $0.0117/min (ca. 4x teurer als Voxtral Realtime). Beste Accuracy laut eigenem Marketing (25-70% weniger Errors als MS/Assembly/Deepgram). Realistisch fuer Premium-Kunden, nicht fuer Marvins KMU-Tarif.
- Self-hosted faster-whisper mit WebSocket-Streaming — fuer Realtime <200ms braucht es RTX 4090 / RTX 6000 Ada. RTX 3060 (12 GB) reicht fuer „real-time aber nicht ultra-low-latency”. Auf Hetzner: GEX44 (RTX 4000 SFF Ada 20GB, 184 EUR/Monat, FSN/NBG EU) — gute Mittelklasse, sollte large-v3 in float16 mit 200-400ms erste-Worte-Latenz schaffen (kein direkter Benchmark gefunden, Werte extrapoliert).
- NVIDIA Riva self-hosted — Open-Source, ultra-low-Latency, aber komplexes Deployment (Triton + Riva-Server). Auf GEX44 machbar, Setup-Aufwand 1-2 Tage.
Pragmatic-Empfehlung: Voxtral Realtime via Mistral-API schlaegt alle Self-Host-Optionen auf Kosten + Setup-Aufwand bis ca. 10.000 Min/Monat (= 60 EUR).
4. EU-Sovereign TTS — Alternativen zu Supertonic 3
- Voxtral TTS 4B (siehe oben) — 70ms Modell-Latenz, Deutsch nativ, klar bester EU-Streaming-TTS Mai 2026. Lizenz-Klemme NC bei open-weights, API kommerziell ok.
- Supertonic 3 — On-Device ONNX, 31 Sprachen (inkl. Deutsch). On-CPU bereits real-time. Bleibt valide als Self-Host-Fallback.
- Kokoro 82M — Apache 2.0, 96x realtime auf basic GPU, aber kein Deutsch in den unterstuetzten Sprachen. Raus fuer den Use-Case.
- Coqui XTTS-v2 — Deutsch unterstuetzt, sub-200ms Streaming, aber GPU-Pflicht (CPU zu langsam). Zusaetzlich: Coqui ist eingestellt, idiap-Fork lebt weiter.
- Cartesia EU-Region — Cartesia ist US-Anbieter, EU-Region existiert. Faellt unter Marvins Ausschluss-Kriterium („auch nicht via EU-Region eines US-Konzerns”). Raus.
- Smallest.ai Lightning — UK/Indien, kein klares DSGVO-Statement. Raus.
Streaming-TTS first-audio-byte unter 500ms: Voxtral TTS und Coqui-XTTS-Streaming schaffen das im EU-Sovereign-Pfad.
5. Hetzner GPU 2026
- GEX44 — RTX 4000 SFF Ada, 20 GB GDDR6, 306 TFLOPS Tensor, Intel i5-13500, 64 GB RAM, 2x 1.92 TB NVMe. 184 EUR/Monat + 79 EUR Setup. EU (FSN/NBG/HEL). Ist die richtige Klasse fuer Voxtral Mini 4B Realtime + XTTS-v2 + faster-whisper-large-v3 gemeinsam auf einer Box.
- GEX130/131 — RTX PRO 6000 Blackwell, 96 GB VRAM, 889 EUR/Monat. Overkill fuer Marvins Use-Case, sinnvoll wenn er auch Mistral Medium 3.5 self-hosten will.
Realistische Latenz auf GEX44 (extrapoliert, kein eigener Benchmark): faster-whisper large-v3 ~200-400ms first-word, Voxtral Mini 4B Realtime ~150-300ms TTFT, XTTS-v2 Streaming ~200ms first-audio-byte. Total: ~1-2 Sek end-to-end fuer 10s-Voice-Note-In.
Kostenrechnung: GEX44 = 184 EUR/Monat fix. Voxtral-Realtime-API bei 5h Audio/Monat = 1.80 EUR. Self-Host lohnt nur ab ~500h Audio-Volumen pro Monat oder bei strikter „nichts verlaesst die Box”-Vorgabe. Fuer einen Voice-Bot-Pilot ist API klar billiger.
6. Architektur — Streaming-First fuer ultra-low-Latency
Parallele Pipeline ist Pflicht: ASR streamt Tokens raus → LLM ab erstem Token Generierung starten → TTS ab erstem LLM-Token Generierung starten. Sequential ist tot fuer <2s TTFA.
WhatsApp-Constraint: Voice-Notes brauchen komplette OGG/Opus-Datei als Output (kein Streaming-Upload-Endpoint in der Meta Cloud API, auch im Voice-Beta-Programm nicht). Heisst: TTS muss komplettes Audio-File erzeugen bevor Upload. First-audio-byte-Optimierung bringt clientseitig nichts — was zaehlt ist Total-TTFA (Time-to-Full-Audio).
Konsequenz fuer die Architektur: Streaming-ASR + Streaming-LLM lohnt sich trotzdem (LLM-Antwort liegt frueher fertig vor), Streaming-TTS lohnt sich nur wenn das TTS schneller fertig wird als Batch — bei Voxtral TTS mit RTF 9.7x ist Batch ohnehin schon ~1s fuer typische Antworten.
7. Konkrete Empfehlung
Variante „Pragmatic” — heute Abend startbar
WhatsApp Voice-Note in (OGG/Opus)
→ Mistral-API: Voxtral Realtime (streaming ASR, sub-200ms)
→ Mistral-API: Mistral Medium 3.5 (Text-LLM mit Tool-Use, streaming)
→ Mistral-API: Voxtral TTS (70ms TTFA, Deutsch, batch fuer komplettes OGG)
→ WhatsApp upload
Setup: nur API-Keys + Code. Hosting bleibt Marvins cx23 fuer Glue-Code, kein GPU noetig.
Latenz-Schaetzung TTFA total: 1.5-2.5 Sek end-to-end fuer 10s-Voice-Note. Bottleneck ist WhatsApp-Upload (Meta-API, 200-500ms) und die LLM-Generierung (~500-1000ms fuer kurze Antwort).
Kosten: ~0.06 EUR pro 10-Min-Voice-Dialog (Audio + Text + TTS). Bei 100 Dialogen/Tag = 180 EUR/Monat.
DSGVO: Mistral SAS franzoesisch, AVV verfuegbar, EU-Region. Sauber.
Variante „Premium” — 1-2 Tage Setup
Hetzner GEX44 (184 EUR/Mo) mit:
- faster-whisper large-v3 mit WebSocket-Streaming-Server (float16, ~200-400ms first-word)
- Mistral Small 3.2 oder Voxtral Small 24B lokal via vLLM (Voxtral Small braucht 50+ GB VRAM bei fp16 → bricht auf GEX44, daher Mistral Small 3.2 in fp8 ~16 GB)
- Voxtral TTS 4B open-weights (aber NC-Lizenz! → Alternativ XTTS-v2 oder Supertonic 3)
- alles im selben Prozess oder via gRPC
Latenz TTFA: 1-1.5 Sek end-to-end, weil kein API-Round-Trip nach extern.
Kosten: 184 EUR/Mo fix unabhaengig vom Volumen. Lohnt ab ~3000 Dialog-Minuten/Monat oder bei Industriekunden mit „nichts verlaesst die Box”-Vorgabe.
DSGVO: alles auf Hetzner, Marvin kontrolliert komplett. Bester Pitch fuer Becker-aehnliche Industriekunden.
Variante „Best in Class” — was theoretisch geht
Hetzner GEX131 (889 EUR/Mo, RTX PRO 6000 96GB) mit:
- Voxtral Realtime open weights als Streaming-ASR (sub-200ms, kein API-Round-Trip)
- Voxtral Small 24B lokal (audio-in mit native tool use, fp16 passt rein) — ersetzt die ASR-LLM-Trennung wo Latenz nicht zaehlt aber Reasoning aus Audio direkt gewollt ist
- Voxtral TTS 4B als Streaming-Generator
- alles ueber einen Triton-Inference-Server / vLLM, mit Audio-Pipeline in Rust/Go fuer minimale Overhead
Latenz TTFA: 800ms - 1.2 Sek end-to-end. Theoretisches Minimum gegeben WhatsApp-Upload-Constraint.
Kosten: 889 EUR/Mo fix. Lohnt sich erst bei Multi-Kunde-Hosting mit > 50.000 Voice-Note-Minuten/Monat.
DSGVO: Maximum.
Empfehlung fuer Marvin
Variante Pragmatic starten. Voxtral Realtime + Mistral Medium 3.5 + Voxtral TTS-API zusammen schlagen den urspruenglichen Voxtral-Small-Plan deutlich (5-7s → 1.5-2.5s), kosten kaum etwas im Pilot, und Marvin kann Variante Premium nachschieben sobald entweder (a) ein DSGVO-strenger Industriekunde es verlangt oder (b) das Volumen die 184 EUR/Mo Self-Host rechtfertigt.
Die ueberraschende Sache: Voxtral TTS (Maerz 2026) macht Supertonic 3 als TTS-Default obsolet, wenn Marvin den API-Pfad geht. Self-Host bleibt Supertonic 3 wegen der CC-BY-NC-Lizenz auf Voxtral-TTS-Weights die richtige Wahl.
Quellen
- Voxtral Transcribe 2 — Mistral AI
- Voxtral TTS — Mistral AI
- Voxtral Small 24B 2507 — Mistral Docs
- Voxtral-Mini-4B-Realtime-2602 — HuggingFace
- Scaleway Generative APIs supported models
- OVHcloud AI Endpoints catalog
- Speechmatics Real-Time STT
- Hetzner GEX44 product page
- Hetzner GEX131 RTX PRO 6000 Blackwell
- Supertonic 3 — HuggingFace
- Kokoro TTS — HuggingFace Spaces
- Coqui XTTS-v2 Streaming Docs
- WhatsApp Cloud API Voice Message Beta — 360Dialog
- Audio Messages — Meta for Developers
- Mistral Voxtral TTS 9 languages 70ms — Sci-Tech Today
- Mistral Voxtral TTS Open-Weight — MarkTechPost