Session-Uebergabe — Pass 2 + av-voice MVP

Ablage-Punkt fuer alle wichtigen Sachen aus der 18.05.2026-Abend-Session damit wir sie wiederfinden. Lies das als Erstes wenn du als naechster Agent oder Marvin selbst in das Thema einsteigst.

TL;DR in 5 Saetzen

  1. Wir haben den Pass-2-Brainstorm zur MCP-Hosting-Platform mit Customer-Lens-Reframe, 5 Piloten (Tanja, Sebastian, Thorsten, Klaus, Becker) und 4-Stufen-Compound-Logik durchgezogen.
  2. Strategischer Kern: „Service-Schmiede statt Agency” — die Piloten zahlen den Bau der Bausteine, die wir 10-100x weiterverkaufen.
  3. WhatsApp-First-Strategie fuer DACH-KMU — DSGVO-rein, kein Telefon-Provider-Pain.
  4. Technisch gebaut: av-voice MVP laeuft End-to-End (Voice-Note rein → ASR Voxtral → LLM Bedrock Haiku 4.5 → TTS Supertonic → Voice-Note raus), 9,4 Sek Round-Trip.
  5. Naechste Session: Stufe-2-Latenz-Sprint — Ziel unter 5 Sek (Plan liegt in ~/source/av-voice/docs/stufe-2-latenz-plan.md).

Wo alles liegt

Strategische Doku im Vault

DateiWas steht drin
zielversionMaster-Doc. Customer-Lens-Reframe, 5-Piloten-Matrix, 4-Stufen-Compound, WhatsApp-First, 4-Wellen-Bauplan, korrigierte Finanz-Projektion mit Stufe 3
synthesePass-2 Vormittags-Stand (Wix-These, 6-Mauern-Defensibility, ueberholt von zielversion.md)
recherche-us-marktMarktrecherche kommerzielle MCP-Hoster USA, Agent-Payments, DACH-Lage, 3 Differenzierungs-Pfade
recherche-voice-stack-low-latencyEU-DSGVO Low-Latency Voice-AI Stack — Voxtral, Speechmatics, Hetzner GPU-Options
requirementsPass-1-Brainstorm (EDI-Netzwerk) — bleibt gueltig als erstes Vertikal-Template

Visualisierung

assets/prototypen/2026-05-18-mcp-defensibility/index.html — Claude-Style HTML mit:

  • Hero-Frage „Wie werden wir nicht ueberrollt”
  • 5 Persona-Karten (Klaus, Tanja, Sebastian + im Text: Thorsten + Ralf Becker)
  • Stack-Pyramide (Layer 1 Compute → Layer 5 Marketplace)
  • 6 Defensibility-Mauern
  • Graph in 4 Bildern (statt Mermaid)
  • Vergleichs-Tabelle Anthropic vs Cloudflare vs Wir
  • 5-Jahres-Finanz-Projektion mit Exit-Szenarien

Code-Repos

~/source/av-voice/
  ├── src/av_voice/
  │   ├── server.py        (FastAPI, /health + /voice-event + /test-voice-from-file)
  │   ├── config.py        (Pydantic-Settings + build_system_prompt() mit Datum-Context)
  │   ├── asr.py           (Voxtral Mini via Mistral La Plateforme)
  │   ├── llm.py           (Provider-Switch Bedrock + Mistral, beide mit Tool-Use)
  │   ├── tts.py           (Supertonic HTTP + ElevenLabs Fallback)
  │   ├── calcom_client.py (Cal.com API v2)
  │   └── whatsapp_client.py (Meta Cloud API direkt)
  ├── docs/stufe-2-latenz-plan.md  ← PLAN FUER NAECHSTE SESSION
  ├── .env.local          (gitignored — MISTRAL_API_KEY, CALCOM_API_KEY)
  ├── pyproject.toml + uv.lock
  └── README.md

~/source/mcps/mcp-whatsapp/
  └── src/mcp_whatsapp/server.py  (NEU: send_audio, upload_media, download_media,
                                    Webhook-Audio-Routing an av-voice via
                                    AV_VOICE_WEBHOOK_URL env-var)

Vault-Pointer fuer Folge-Sessions

  • ideas-backlog — av-platform Core + av-audit Hosted-Service als Pass-3-Brainstorm geparkt (mit Review-Trigger).
  • active-work — falls 5 Piloten dort eingetragen werden sollten.
  • friseur-im-sueden — Tanja, Anchor-Kunde fuer Salon-Template.
  • becker — Ralf, Anchor-Kunde EDI-Cluster.

Was diese Session geleistet hat

Strategische Bewegungen

  1. Customer-Lens-Reframe. Wir verkaufen NIE „MCP-Hosting” — wir verkaufen pro Branche ein konkretes Versprechen mit ROI-Anker. MCP-Hosting ist die langweilige Implementation darunter.
  2. Zwei Bereitstellungs-Modelle erkannt. Modell A („Wir sind Frontend” — Web-App + WhatsApp + Email) fuer KMU/Handwerk/Salon. Modell B („Wir sind Backend” — MCP-URL in claude.ai) fuer Industrie-Hubs + tech-affine Solos.
  3. 4-Stufen-Compound-Logik. Service → Templates → Horizontale Tools → Marketplace. Stufe-3-Produkte mit Dogfood: av-voice, av-audit, „Mein KI-Stabschef”.
  4. WhatsApp-First statt Telefon-First. „Die Leute werden lieber WhatsApp schreiben als anzurufen” — strategischer Satz der Session.
  5. Dual-Stack DSGVO-Strategie. Mistral (FR) fuer strict-DSGVO (Sebastian-LVM, Becker), Bedrock EU fuer pragmatische DSGVO (Tanja, Klaus, Thorsten, eigene Tools).

Technische Errungenschaften

  1. av-voice MVP laeuft End-to-End. Voice-Note rein, Cal.com-Termin-Lookup via Tool-Use, Voice-Note raus. 9,4 Sek aktuell.
  2. mcp-whatsapp erweitert um 3 neue Audio-Tools (send_audio, upload_media, download_media) + Webhook-Audio-Routing.
  3. LLM-Provider-Switch eingebautLLM_PROVIDER=bedrock|mistral env-var schaltet zwischen strict-DSGVO und pragmatischer DSGVO ohne Code-Aenderung.
  4. System-Prompt-Tuning — 15-Wort-Regel, kein Markdown, Datum-Context-Injection, voice-tauglicher Stil.
  5. Bedrock Streaming-Pipelineconverse_stream statt converse, eigene _collect_stream Helper-Funktion.

Wichtige Entscheidungen (mit Begruendung)

EntscheidungBegruendung
Mistral La Plateforme als ASR-DefaultFunktioniert, schnell, EU-FR-Hosting, DSGVO-rein, native Deutsch
Bedrock Haiku 4.5 als LLM-DefaultSchneller als Mistral Large, keine Rate-Limits, AWS-AVV reicht fuer pragmatische DSGVO
Supertonic auf Hetzner als TTSSchon deployed (av-tools-shared-01), DSGVO-rein, open-source, OpenAI-API-kompatibel
ASR + TTS bleiben unabhaengig vom LLM-SwitchASR ist eh DSGVO-rein (Mistral FR), TTS ist eh DSGVO-rein (Hetzner DE). Nur LLM ist Schalter
NICHT Bedrock Global Inference ProfileRoutet zu US-Region, bricht auch pragmatische DSGVO
NICHT OpenAI WhisperUS-Anbieter im Datenpfad, bricht DSGVO-Pitch
Telefon-Provider (Twilio, sipgate) deferredCarrier-Pain — WhatsApp-First reicht fuer KMU-Markt
GPU-Self-Hosting deferred184 EUR/Mo Fixkosten lohnen erst ab 3000 Voice-Dialoge/Monat oder strict-DSGVO-Industriekunde

Latenz-Stand und Plan

Baseline 18.05 23:50 — gemessen mit Test-Voice-Note „Hallo, ich haette gerne naechste Woche
einen Termin fuer einen klassischen Herrn-Haarschnitt. Geht das am Donnerstagnachmittag?"

ASR Voxtral (Mistral FR)        0,7s
LLM Hop 1 (Cal.com Tool-Call)   2,7s
Cal.com slots-API               1,4s   (variabel — heute hoch, normal 0,4s)
LLM Hop 2 (Final-Text)          1,9s   (mit Streaming)
TTS Supertonic (66 Zeichen)     2,6s   (cx23, RTF 0,46)
────────────────────────────────────
Total                           9,4s

Ziel naechste Session: unter 5 Sek. Plan in ~/source/av-voice/docs/stufe-2-latenz-plan.md mit 4 Hebeln:

  1. Single-Hop-Routing (Cal.com vor LLM) — ~-2,5 Sek
  2. Supertonic auf CAX21 — ~-1,4 Sek
  3. aiobotocore (async Bedrock-Client) — ~-0,3 Sek
  4. Cal.com Cache (falls 1,4s die Norm wird) — ~-0,5 Sek

Open Threads — was die naechste Session anpacken sollte

Hoch-Prioritaet

  1. Stufe-2-Latenz-Sprint. Ziel unter 5 Sek. Plan steht. Etwa 4-6h Arbeit fuer alle 4 Hebel.
  2. Echter WhatsApp-Round-Trip testen. Bis jetzt nur curl-Test mit Supertonic-generiertem Test-Audio. Muss gegen echte Meta Cloud API durchgespielt werden. Voraussetzung: WhatsApp-Token + Phone-Number-ID aus AWS Secrets Manager fuer mcp-whatsapp lokal verfuegbar machen, oder mcp-whatsapp Fargate-Service mit AV_VOICE_WEBHOOK_URL updaten + cloudflared-Tunnel zu localhost:8780.
  3. Commit in beiden Repos. av-voice ist komplett uncommitted. mcp-whatsapp hat uncommitted Audio-Erweiterungen.

Mittel-Prioritaet

  1. Sebastian-Kollas-Demo vorbereiten. Pilot Nr. 2 nach Tanja. Wenn Stufe-2-Latenz unter 5 Sek ist, ist das ein demonstrierbarer Wert: Voice-Note in 5 Sek mit echter Slot-Buchung.
  2. Thorsten-Bär (Riesendachdeckerbetrieb). Lead-Pflege, ggf. Vorgespraech vor Pilot-Beginn.
  3. Friseur-Im-Sueden konkret onboarden. Bestehende Kundin Tanja Berger — laufender Pilot, av-voice fuer ihre WhatsApp-Inbox einbauen.

Strategisch (Pass-3-Brainstorms)

  1. av-platform Core (Multi-Tenant-MCP-Hosting-Skeleton). Geparkt in ideas-backlog mit Review-Trigger „nach av-voice Phase 1+2 abgeschlossen”. Eigene Brainstorm-Session ansetzen.
  2. av-audit Lib + Hosted-Service. Geparkt mit Review-Trigger „nach Becker-Pilot-Start”. Eigene Brainstorm-Session.

Hygiene

  1. Mistral-API-Key rotieren. Der Key jOeX4iuajqr4BaARwF1dTSIqmbCtpZAb haengt im Session-Chat-Verlauf. Rotation bei console.mistral.ai falls Marvin paranoid sein will. Aktuell in ~/source/av-voice/.env.local (gitignored).
  2. Cal.com-Slot-Latenz beobachten. 0,4s → 1,4s in einer Stunde sind ungewoehnlich. Eventuell Hebel-4 (Cache) ist doch noetig.
  3. mcp-whatsapp lokal nicht startbar ohne AWS-Secrets-Manager-Setup oder Token aus 1Password ziehen. Frage Tag 2: brauchen wir lokale Test-Phone-Number-ID oder reicht der Fargate-Service mit Tunnel-Routing?

Quick-Start fuer naechste Session

# 1. Vault Pointer lesen
cat ~/source/agentic-ventures/intern/runs/2026-05-18-mcp-hosting-platform-pass2/session-uebergabe.md
 
# 2. Stufe-2-Plan oeffnen
cat ~/source/av-voice/docs/stufe-2-latenz-plan.md
 
# 3. av-voice starten
cd ~/source/av-voice
uv run av-voice
# → http://127.0.0.1:8780/health antwortet 200
 
# 4. Smoke-Test mit existing Test-Audio
curl -X POST http://127.0.0.1:8780/test-voice-from-file \
  -F audio=@/tmp/customer-question.ogg \
  -F from_phone=491701234567 \
  -o /tmp/reply.ogg \
  -w "Latenz: %{time_total}s\n"
 
# 5. Stufe-2-Hebel 2 (Supertonic auf CAX21) parallel im Hintergrund starten
# 6. Hebel 1 (Single-Hop) implementieren
# 7. Re-Test

Wager-Bilanz dieser Session

WetteRealitaetStatus
5-Min-System-Prompt-Tweak: 16s → 11s16s → 11s
Bedrock-Switch + Streaming + Global-Profile: 11s → 5-6s11s → 9,4s✗ Verloren — Streaming bringt nur 900ms statt 1,5s, Global skipped wegen DSGVO
Pass-2-Plattform-These verkaufbar machenHTML-Page + 4 Brainstorm-Files + Customer-Lens reframe
End-to-End-Voice-Bot heute Abend funktionsfaehigLaeuft mit echter Cal.com-Slot-Abfrage und richtigem Datum

Wo das HTML lebt

assets/prototypen/2026-05-18-mcp-defensibility/index.html — kann direkt im Browser geoeffnet werden, kein Build noetig. Stand 18.05 endgueltig. Ueberarbeitungen koennen direkt im HTML gemacht werden, aber Master-Inhalt bleibt in zielversion.

Naechste Schritte fuer Marvin persoenlich

Wenn du als Marvin morgens hier reinkommst:

  1. Kaffee.
  2. Lies diesen Abschnitt + den TL;DR oben.
  3. Entscheide ob du Stufe-2 jetzt anpacken willst oder ob ein anderer Kunde-Termin Vorrang hat (Andre Kollas anrufen wegen Sebastian-Vorstellung waere z.B. ein Outreach-Win, kein Bauen).
  4. Falls Stufe-2: starte mit Hebel 2 (Supertonic auf CAX21) — laeuft im Hintergrund, du kannst parallel Hebel 1 codieren.
  5. Falls Outreach: HTML-Page ist tauglich um sie Andre/Sebastian zu zeigen. Slow-Walk-the-Story, nicht das ganze Doc auf einmal.