Session-Uebergabe — Pass 2 + av-voice MVP
Ablage-Punkt fuer alle wichtigen Sachen aus der 18.05.2026-Abend-Session damit wir sie wiederfinden. Lies das als Erstes wenn du als naechster Agent oder Marvin selbst in das Thema einsteigst.
TL;DR in 5 Saetzen
- Wir haben den Pass-2-Brainstorm zur MCP-Hosting-Platform mit Customer-Lens-Reframe, 5 Piloten (Tanja, Sebastian, Thorsten, Klaus, Becker) und 4-Stufen-Compound-Logik durchgezogen.
- Strategischer Kern: „Service-Schmiede statt Agency” — die Piloten zahlen den Bau der Bausteine, die wir 10-100x weiterverkaufen.
- WhatsApp-First-Strategie fuer DACH-KMU — DSGVO-rein, kein Telefon-Provider-Pain.
- Technisch gebaut:
av-voiceMVP laeuft End-to-End (Voice-Note rein → ASR Voxtral → LLM Bedrock Haiku 4.5 → TTS Supertonic → Voice-Note raus), 9,4 Sek Round-Trip. - Naechste Session: Stufe-2-Latenz-Sprint — Ziel unter 5 Sek (Plan liegt in
~/source/av-voice/docs/stufe-2-latenz-plan.md).
Wo alles liegt
Strategische Doku im Vault
| Datei | Was steht drin |
|---|---|
| zielversion | Master-Doc. Customer-Lens-Reframe, 5-Piloten-Matrix, 4-Stufen-Compound, WhatsApp-First, 4-Wellen-Bauplan, korrigierte Finanz-Projektion mit Stufe 3 |
| synthese | Pass-2 Vormittags-Stand (Wix-These, 6-Mauern-Defensibility, ueberholt von zielversion.md) |
| recherche-us-markt | Marktrecherche kommerzielle MCP-Hoster USA, Agent-Payments, DACH-Lage, 3 Differenzierungs-Pfade |
| recherche-voice-stack-low-latency | EU-DSGVO Low-Latency Voice-AI Stack — Voxtral, Speechmatics, Hetzner GPU-Options |
| requirements | Pass-1-Brainstorm (EDI-Netzwerk) — bleibt gueltig als erstes Vertikal-Template |
Visualisierung
assets/prototypen/2026-05-18-mcp-defensibility/index.html — Claude-Style HTML mit:
- Hero-Frage „Wie werden wir nicht ueberrollt”
- 5 Persona-Karten (Klaus, Tanja, Sebastian + im Text: Thorsten + Ralf Becker)
- Stack-Pyramide (Layer 1 Compute → Layer 5 Marketplace)
- 6 Defensibility-Mauern
- Graph in 4 Bildern (statt Mermaid)
- Vergleichs-Tabelle Anthropic vs Cloudflare vs Wir
- 5-Jahres-Finanz-Projektion mit Exit-Szenarien
Code-Repos
~/source/av-voice/
├── src/av_voice/
│ ├── server.py (FastAPI, /health + /voice-event + /test-voice-from-file)
│ ├── config.py (Pydantic-Settings + build_system_prompt() mit Datum-Context)
│ ├── asr.py (Voxtral Mini via Mistral La Plateforme)
│ ├── llm.py (Provider-Switch Bedrock + Mistral, beide mit Tool-Use)
│ ├── tts.py (Supertonic HTTP + ElevenLabs Fallback)
│ ├── calcom_client.py (Cal.com API v2)
│ └── whatsapp_client.py (Meta Cloud API direkt)
├── docs/stufe-2-latenz-plan.md ← PLAN FUER NAECHSTE SESSION
├── .env.local (gitignored — MISTRAL_API_KEY, CALCOM_API_KEY)
├── pyproject.toml + uv.lock
└── README.md
~/source/mcps/mcp-whatsapp/
└── src/mcp_whatsapp/server.py (NEU: send_audio, upload_media, download_media,
Webhook-Audio-Routing an av-voice via
AV_VOICE_WEBHOOK_URL env-var)
Vault-Pointer fuer Folge-Sessions
- ideas-backlog — av-platform Core + av-audit Hosted-Service als Pass-3-Brainstorm geparkt (mit Review-Trigger).
- active-work — falls 5 Piloten dort eingetragen werden sollten.
- friseur-im-sueden — Tanja, Anchor-Kunde fuer Salon-Template.
- becker — Ralf, Anchor-Kunde EDI-Cluster.
Was diese Session geleistet hat
Strategische Bewegungen
- Customer-Lens-Reframe. Wir verkaufen NIE „MCP-Hosting” — wir verkaufen pro Branche ein konkretes Versprechen mit ROI-Anker. MCP-Hosting ist die langweilige Implementation darunter.
- Zwei Bereitstellungs-Modelle erkannt. Modell A („Wir sind Frontend” — Web-App + WhatsApp + Email) fuer KMU/Handwerk/Salon. Modell B („Wir sind Backend” — MCP-URL in claude.ai) fuer Industrie-Hubs + tech-affine Solos.
- 4-Stufen-Compound-Logik. Service → Templates → Horizontale Tools → Marketplace. Stufe-3-Produkte mit Dogfood:
av-voice,av-audit, „Mein KI-Stabschef”. - WhatsApp-First statt Telefon-First. „Die Leute werden lieber WhatsApp schreiben als anzurufen” — strategischer Satz der Session.
- Dual-Stack DSGVO-Strategie. Mistral (FR) fuer strict-DSGVO (Sebastian-LVM, Becker), Bedrock EU fuer pragmatische DSGVO (Tanja, Klaus, Thorsten, eigene Tools).
Technische Errungenschaften
av-voiceMVP laeuft End-to-End. Voice-Note rein, Cal.com-Termin-Lookup via Tool-Use, Voice-Note raus. 9,4 Sek aktuell.mcp-whatsapperweitert um 3 neue Audio-Tools (send_audio,upload_media,download_media) + Webhook-Audio-Routing.- LLM-Provider-Switch eingebaut —
LLM_PROVIDER=bedrock|mistralenv-var schaltet zwischen strict-DSGVO und pragmatischer DSGVO ohne Code-Aenderung. - System-Prompt-Tuning — 15-Wort-Regel, kein Markdown, Datum-Context-Injection, voice-tauglicher Stil.
- Bedrock Streaming-Pipeline —
converse_streamstattconverse, eigene_collect_streamHelper-Funktion.
Wichtige Entscheidungen (mit Begruendung)
| Entscheidung | Begruendung |
|---|---|
| Mistral La Plateforme als ASR-Default | Funktioniert, schnell, EU-FR-Hosting, DSGVO-rein, native Deutsch |
| Bedrock Haiku 4.5 als LLM-Default | Schneller als Mistral Large, keine Rate-Limits, AWS-AVV reicht fuer pragmatische DSGVO |
| Supertonic auf Hetzner als TTS | Schon deployed (av-tools-shared-01), DSGVO-rein, open-source, OpenAI-API-kompatibel |
| ASR + TTS bleiben unabhaengig vom LLM-Switch | ASR ist eh DSGVO-rein (Mistral FR), TTS ist eh DSGVO-rein (Hetzner DE). Nur LLM ist Schalter |
| NICHT Bedrock Global Inference Profile | Routet zu US-Region, bricht auch pragmatische DSGVO |
| NICHT OpenAI Whisper | US-Anbieter im Datenpfad, bricht DSGVO-Pitch |
| Telefon-Provider (Twilio, sipgate) deferred | Carrier-Pain — WhatsApp-First reicht fuer KMU-Markt |
| GPU-Self-Hosting deferred | 184 EUR/Mo Fixkosten lohnen erst ab 3000 Voice-Dialoge/Monat oder strict-DSGVO-Industriekunde |
Latenz-Stand und Plan
Baseline 18.05 23:50 — gemessen mit Test-Voice-Note „Hallo, ich haette gerne naechste Woche
einen Termin fuer einen klassischen Herrn-Haarschnitt. Geht das am Donnerstagnachmittag?"
ASR Voxtral (Mistral FR) 0,7s
LLM Hop 1 (Cal.com Tool-Call) 2,7s
Cal.com slots-API 1,4s (variabel — heute hoch, normal 0,4s)
LLM Hop 2 (Final-Text) 1,9s (mit Streaming)
TTS Supertonic (66 Zeichen) 2,6s (cx23, RTF 0,46)
────────────────────────────────────
Total 9,4s
Ziel naechste Session: unter 5 Sek. Plan in ~/source/av-voice/docs/stufe-2-latenz-plan.md mit 4 Hebeln:
- Single-Hop-Routing (Cal.com vor LLM) —
~-2,5 Sek - Supertonic auf CAX21 —
~-1,4 Sek - aiobotocore (async Bedrock-Client) —
~-0,3 Sek - Cal.com Cache (falls 1,4s die Norm wird) —
~-0,5 Sek
Open Threads — was die naechste Session anpacken sollte
Hoch-Prioritaet
- Stufe-2-Latenz-Sprint. Ziel unter 5 Sek. Plan steht. Etwa 4-6h Arbeit fuer alle 4 Hebel.
- Echter WhatsApp-Round-Trip testen. Bis jetzt nur curl-Test mit Supertonic-generiertem Test-Audio. Muss gegen echte Meta Cloud API durchgespielt werden. Voraussetzung: WhatsApp-Token + Phone-Number-ID aus AWS Secrets Manager fuer
mcp-whatsapplokal verfuegbar machen, odermcp-whatsappFargate-Service mitAV_VOICE_WEBHOOK_URLupdaten + cloudflared-Tunnel zu localhost:8780. - Commit in beiden Repos.
av-voiceist komplett uncommitted.mcp-whatsapphat uncommitted Audio-Erweiterungen.
Mittel-Prioritaet
- Sebastian-Kollas-Demo vorbereiten. Pilot Nr. 2 nach Tanja. Wenn Stufe-2-Latenz unter 5 Sek ist, ist das ein demonstrierbarer Wert: Voice-Note in 5 Sek mit echter Slot-Buchung.
- Thorsten-Bär (Riesendachdeckerbetrieb). Lead-Pflege, ggf. Vorgespraech vor Pilot-Beginn.
- Friseur-Im-Sueden konkret onboarden. Bestehende Kundin Tanja Berger — laufender Pilot, av-voice fuer ihre WhatsApp-Inbox einbauen.
Strategisch (Pass-3-Brainstorms)
av-platformCore (Multi-Tenant-MCP-Hosting-Skeleton). Geparkt in ideas-backlog mit Review-Trigger „nach av-voice Phase 1+2 abgeschlossen”. Eigene Brainstorm-Session ansetzen.av-auditLib + Hosted-Service. Geparkt mit Review-Trigger „nach Becker-Pilot-Start”. Eigene Brainstorm-Session.
Hygiene
- Mistral-API-Key rotieren. Der Key
jOeX4iuajqr4BaARwF1dTSIqmbCtpZAbhaengt im Session-Chat-Verlauf. Rotation bei console.mistral.ai falls Marvin paranoid sein will. Aktuell in~/source/av-voice/.env.local(gitignored). - Cal.com-Slot-Latenz beobachten. 0,4s → 1,4s in einer Stunde sind ungewoehnlich. Eventuell Hebel-4 (Cache) ist doch noetig.
- mcp-whatsapp lokal nicht startbar ohne AWS-Secrets-Manager-Setup oder Token aus 1Password ziehen. Frage Tag 2: brauchen wir lokale Test-Phone-Number-ID oder reicht der Fargate-Service mit Tunnel-Routing?
Quick-Start fuer naechste Session
# 1. Vault Pointer lesen
cat ~/source/agentic-ventures/intern/runs/2026-05-18-mcp-hosting-platform-pass2/session-uebergabe.md
# 2. Stufe-2-Plan oeffnen
cat ~/source/av-voice/docs/stufe-2-latenz-plan.md
# 3. av-voice starten
cd ~/source/av-voice
uv run av-voice
# → http://127.0.0.1:8780/health antwortet 200
# 4. Smoke-Test mit existing Test-Audio
curl -X POST http://127.0.0.1:8780/test-voice-from-file \
-F audio=@/tmp/customer-question.ogg \
-F from_phone=491701234567 \
-o /tmp/reply.ogg \
-w "Latenz: %{time_total}s\n"
# 5. Stufe-2-Hebel 2 (Supertonic auf CAX21) parallel im Hintergrund starten
# 6. Hebel 1 (Single-Hop) implementieren
# 7. Re-TestWager-Bilanz dieser Session
| Wette | Realitaet | Status |
|---|---|---|
| 5-Min-System-Prompt-Tweak: 16s → 11s | 16s → 11s | ✓ |
| Bedrock-Switch + Streaming + Global-Profile: 11s → 5-6s | 11s → 9,4s | ✗ Verloren — Streaming bringt nur 900ms statt 1,5s, Global skipped wegen DSGVO |
| Pass-2-Plattform-These verkaufbar machen | HTML-Page + 4 Brainstorm-Files + Customer-Lens reframe | ✓ |
| End-to-End-Voice-Bot heute Abend funktionsfaehig | Laeuft mit echter Cal.com-Slot-Abfrage und richtigem Datum | ✓ |
Wo das HTML lebt
assets/prototypen/2026-05-18-mcp-defensibility/index.html — kann direkt im Browser geoeffnet werden, kein Build noetig. Stand 18.05 endgueltig. Ueberarbeitungen koennen direkt im HTML gemacht werden, aber Master-Inhalt bleibt in zielversion.
Naechste Schritte fuer Marvin persoenlich
Wenn du als Marvin morgens hier reinkommst:
- Kaffee.
- Lies diesen Abschnitt + den TL;DR oben.
- Entscheide ob du Stufe-2 jetzt anpacken willst oder ob ein anderer Kunde-Termin Vorrang hat (Andre Kollas anrufen wegen Sebastian-Vorstellung waere z.B. ein Outreach-Win, kein Bauen).
- Falls Stufe-2: starte mit Hebel 2 (Supertonic auf CAX21) — laeuft im Hintergrund, du kannst parallel Hebel 1 codieren.
- Falls Outreach: HTML-Page ist tauglich um sie Andre/Sebastian zu zeigen. Slow-Walk-the-Story, nicht das ganze Doc auf einmal.