Session 2026-05-19 — MCPMark-Recherche und Cash-Snapshot

Live-Mitschrift der wichtigsten Erkenntnisse, Entscheidungen und Vault-Aenderungen aus dem heutigen Chat. Quelle der Wahrheit fuer Folge-Session.

TL;DR

  1. MCPMark gescraped + arXiv 2509.24002 ausgewertet — komplettes Leaderboard (39 Modelle) extrahiert. Bestaetigt das US-Tool-Bias und liefert harte Zahlen zum Modell-Mix-Argument.
  2. MCPMark misst Modelle, nicht MCPs. Marvins Idee war aber MCPs zu messen — und die ist bereits ausgearbeitet als MCP-SSF (MCP Security Scoring Framework) im Projekt _index. Drei Schaerfungs-Vorschlaege offen.
  3. Geschaeftsmodelle-Brainstorm war Sidequest, wurde erkannt und auf konkrete Hilfe umgeschaltet. Vier-Tracks-Verdichtung als Notiz.
  4. Cash-Status sauber sortiert — 3 externe Blocker (Notar / Stipendium / HR-Eintragung), Pipeline-Eintraege gepflegt, Notar-Reply als Draft ungesendet im Postfach.

Was wurde im Vault geaendert

DateiAenderung
joernNeu (cust-011, Stub). Forderungs-Tabelle 300 EUR fuer Schulung (3h × 100, vermutlich via WhatsApp organisiert, Detail offen). Tags placeholder / detail-offen.
angebot-alexFrontmatter status: draftstatus: sent, plus sent_date: 2026-05-18.
woehrleStatus-Absatz ergaenzt um Subkontraktor-Modell mit Alex Gross / Alpa-Vision. Neue ## Pipeline-Sektion mit 2.000 EUR Setup + Option A (150/Mo) und Option B (200/Mo). Wichtig: Rechnungsstellung geht an Alpa-Vision, nicht direkt an Wohrle.
Gmail-Draft Notar BerghoffUngesendet im hello@-Postfach, Thread mit Berghoff. Status-Nachfrage zur HRB-Anmeldung nach 14 Tagen Funkstille. Wartet auf Marvins OK zum Versenden.

MCPMark — was wirklich da ist

  • Paper: arXiv 2509.24002, Sep 2025, CC-BY-4.0, 15 Autoren (EVAL SYS / LobeHub / NUS TRAIL), 42 Seiten
  • Repo: eval-sys/mcpmark, 417⭐ / 36 Forks, Apache-2.0, Python, last push 2026-05-13
  • Suite: 127 Standard-Tasks + 50 Easy-Tasks ueber 5 MCP-Services (Notion, GitHub, Filesystem, Postgres, Playwright). Jede Task hat verify.py (regelbasiert, kein LLM-as-Judge), isolierte Sandboxes, Pinned Versionen.
  • Metriken: Schnitt 16,2 Turns + 17,4 Tool-Calls pro Task. Multi-Run pass@1 / pass@k / pass^k / avg@k.
  • Insight aus Insforge-PR #214: „better MCP servers achieve better results with fewer tokens” → MCP-Qualitaet ist messbar als Token-Effizienz × Erfolgsrate.

Leaderboard Top-15 (avgSuccessRate, scraped via next_f-Payload)

RangModellScore
1gpt-5-2-high57,5 %
2gemini-3-pro-high53,9 %
3gpt-5-medium52,6 %
4gpt-5-high51,6 %
5gemini-3-pro-low50,8 %
6gpt-5-low46,9 %
7claude-opus-4-5-high42,3 %
8deepseek-v3-2-thinking36,8 % (bestes Open-Source)
9claude-sonnet-4-532,1 %
10grok-431,7 %
11gpt-5-mini-high30,3 %
12claude-opus-4-129,9 %
13deepseek-v3-2-chat29,7 %
14claude-sonnet-4 (high/medium/low)28,4 / 28,2 / 27,4 %
15o325,4 %

Volle 39 Modelle plus arXiv-Abstract sind im persistierten Tool-Result tool-results/by7nxbtyj.txt der Session.

DSGVO-Lens

  • Mistral, Aleph Alpha, Llama-Familie, PhariaAI alle nicht im Leaderboard → MCPMark deckt EU/DSGVO-Stack nicht ab. Argument fuer eigenes DACH-Benchmark.
  • Sonnet-4-5 nur 32 %, Opus-4-5 nur 42 % — der Abstand Opus↔Sonnet bei Anthropic ist auffaellig gross (10 pp), bei GPT-5 nur ~5 pp. Argument fuer Modell-Mix in _index.
  • gpt-oss-120b 4,7 %, gemini-2-5-flash 9 % → kleine/Open-Source-Modelle bei Multi-Tool-Workflows aktuell chancenlos.

MCP-SSF — bestehende Idee, drei offene Schaerfungs-Vorschlaege

Die „MCPs bewerten + DSGVO + Marketing”-Vision existiert bereits seit 2026-05-18 als Projekt _index + Recherche report. Aufwand-Budget 10-12 Halbtage bis 2026-06-15. Pilot mcp-papierkram durch (0 CRIT / 0 HIGH / 3 MED).

Drei Vorschlaege aus dem MCPMark-Vergleich, alle noch nicht entschieden:

#VorschlagAufwandStatus
1DSGVO als eigene vierte Saeule in MCP-SSF v0.1 (Hosting-Region, AVV, Subprozessoren, Logging-PII, Loeschkonzept, Audit-Log-Retention, Cache-Sharing-Disclosure) statt eine von 60-80 Controls1-2h Brainstorm + Doku-Ergaenzung in plan.mdOFFEN
2Funktional-Dimension als optionaler V2-Add-On-Score — Methodik von MCPMark/insforge, eigene 5-10 Standard-Tasks pro Profil. Im Plan reservieren, nicht jetzt bauen30 min Plan-UpdateOFFEN
3Repo-Naming + Brand-Entscheidungmcp-security-audits ist eng wenn DSGVO + Funktional rein sollen. Alternativen: mcp-trust-index, mcp-ssf-index, mcp-observatory15 min EntscheidungOFFEN

Zusatz-Vorschlag (Marvins Flywheel-Insight in dieser Session):

#VorschlagAufwandStatus
4Phase 0.5 „Self-Bench-Loop” zwischen Pattern (Phase 2) und Audit 2+3 (Phase 3): jeder Eigenbau-MCP /mcp-audit --profile <P0..P3>-Self-Run als Quality-Gate vor Release, Findings ueber HIGH → Issue, Score-Verlauf in dashboard/data/scores.csv historisch, Pattern-Findings zurueck in mcp-best-practices30 min Plan-Update, kein neuer CodeOFFEN

Drei-Schichten-Compound (Marvin):

  1. Bau-Quality-Loop intern — jeder Audit-Control wird zur Standard-Checkliste fuer Eigenbauten
  2. Self-Showcase-Effekt extern — wer den Massstab setzt UND ihn ueberfaellt hat doppelte Authority
  3. Konkrete MCPs die ab heute profitieren: mcp-whatsapp, mcp-vf-hosted, mcp-lexware (Phase 4), mcp-zettle (Skeleton)

Geschaeftsmodelle der Agent-Welt (Sidequest-Brainstorm)

Marvin hat selbst erkannt dass das Sidequest war. Trotzdem als Notiz festgehalten weil substantiell:

Vier Tracks zu verdichten (statt sieben parallel):

  1. Service (heute, zahlt Miete) — Setup + Workshop + Implementation, bleibt Cash-Anker bis 10k MRR
  2. Tool-Layer (waechst) — MCP-Hosting mit DACH/AVV-USP, pro Tenant, nicht pro Call, verkauft als Teil des Service-Pakets
  3. Trust-Layer (Authority-Builder) — MCP-SSF + public-mcp-audits, senkt Sales-Cycle bei 1+2 drastisch
  4. Audit-Trail / GoBD (Mittelfrist-Margenbringer) — av-audit, einziger Layer im Stack mit echtem Lock-in (10-Jahre-Retention), Becker als Dogfood

Pures MCP-Wrappen ist in 18 Monaten unter Margen-Druck (Composio + Smithery + Anthropic Custom Connector). Nicht alleinstehend tragfaehig, aber als Frequency-Anker in einem Stack mit Trust + Service wertvoll (hebt Bewertung von 1× auf 3-5× ARR).

Strategie-Frage zum Verdichten: „Was muessen wir tun, damit ein Kaeufer einer KMU-Loesung in 2027 als Erstes an Agentic Ventures denkt, nicht an Anthropic Cowork oder Composio?” → Trust-Layer + Branchen-Tiefe + Service-Wrapper.

Optionen die nicht aktiv vorangetrieben werden sollen: Vertical Agents (HeyJulia, av-voice — nur wenn Reseller-Deal kommt), Output-Layer (mittelstand-index — 2027er Wochenend-Hack), Marketplaces (out-of-scope fuer Solo).

Cash-Status — drei externe Blocker

Handelsregister / Notar Berghoff-Deppenkemper (info@berghoff-deppenkemper.de)

  • 05.05.: Marvin schickt Qonto-Kontoauszug zur Stammkapital-Einzahlung (2.500 EUR auf Treuhandkonto) an Herrn Berghoff
  • 06.05.: Qonto schreibt „one step away — submit proof of application (Handelsregisteranmeldung)” — auch Qonto wartet auf Notar-Einreichungs-Bestaetigung
  • 05.05. bis heute: keine Antwort vom Notar (14 Tage Funkstille)
  • Heute: Notar-Reply als Draft im Postfach (ungesendet, wartet auf Marvins OK)

Stipendium NRW

  • 04.03.: Jurysitzung, Empfehlung ausgesprochen (Empfangs-Mail Anke Schulze-Altenmethler, IHK Dortmund/Hamm)
  • 05.03.: Katja Kolbe (IMPULS Hamm) als Gruendungscoachin zugewiesen
  • 25.03.: Schulze-Altenmethler reicht Kontakt zu Herrn Puetter weiter
  • 18.05.: Kolbe verschiebt naechsten Austauschtermin von Di 26.05. auf Do 28.05. 14:00
  • Wichtige Unterscheidung: Jury-Empfehlung ≠ Auszahlung. Foerderantrag muss bei Bezirksregierung Arnsberg gestellt + bewilligt werden — da haengt es. Kolbe weiss vermutlich wo.

Rechnungen stellen geht erst nach HR-Eintragung

  • Erlei 1.700 EUR (Stand laut erlei ## Offene Forderungen — leicht hoeher als 1.350 in marvin-projekt-context)
  • Icking 400 EUR + Festpreis-Projekt
  • Wohrle 127 EUR/Monat recurring seit 27.04. (laeuft, nur Faktura blockiert)
  • Joern 300 EUR fuer Schulung (neu eingetragen)
  • Becker (vermutlich vierstellig) Vertragspaket am 13.05. raus, Unterschrift offen

Tag-1-fakturierbar nach HR-Eintragung: Erlei 1.700 + Icking 400 + Wohrle Mai + Joern 300 = ~2.500-2.700 EUR plus 127/Mo recurring.

Email-Highlights heute (Mo 18.05.)

  • Markus Erlei 14:56 — fragt nach Anpassungs-Update + Soeren-Termin. Ball bei Marvin. Marvin macht die Anpassungen erst nochmal selbst, Reply spaeter.
  • Becker „Digitaler Zwilling” Kick-Off — steht: Di 26.05. 15:00 in Boenen (Teams-Link Stoecker), Kalender ist gepflegt
  • Luisa Kornmann (Becker NDA) — Marvin hat 14:47 nach unterschriftsreifer Version gefragt, wartet auf Antwort. Ralf wuenschte Luisa Genesung → krank, evtl. Verzoegerung
  • Patricia Preuss (Becker) — Out-of-Office bis 20.05.
  • Katja Kolbe (Stipendium) — Termin 26.05. → 28.05. 14:00 verschoben
  • Bedrock Budget Alert Account 425924867359 + av-production Account 343241684374 — ueber Threshold, passt zu _index
  • WhatsApp Business Display-Name „Agentic Receptionist” abgelehnt — neuer Name beantragen
  • PayPal Business 3 Mails (Tax-Info + Email-Verifikation) noetig fuer Geschaeftskonto-Aktivierung
  • Florian Schubert (Icking) + Nicole/Christoph Icking — Marvin hat Pipeline-Rebuild-Updates rausgeschickt
  • Palina/Alex (Alpa-Vision) — Handwerks-Deal-Listenpreis bestaetigt: 6.400 EUR Setup + 600 EUR/Mo als Marvins Einkauf, Alex schlaegt frei drauf
  • Alex Gross / Wohrle-Angebot — Mail an .de Bounce, 30 min spaeter an .com durch (bereits korrigiert)

Klarstellungen + gefangene Memory-Fehler

  • Papierkram ist Vibe-Factory-Mandant, NICHT AV. Vault buchhaltungs-stack und papierkram stehen bereits korrekt. AV-Buchhaltung laeuft via sevDesk (in Vorbereitung, nicht aktiv weil UG nicht eingetragen).
  • Memory-Reflex korrigiert — ich wollte ungefragt papierkram_offene_posten aufrufen, das waeren VF-Daten gewesen. Wichtige Erinnerung an intern/firma/marvin-profile: Vault ist Wahrheit, nicht Tool-Memory.
  • Alex Gross ist eine Person, zwei Rollen — Becker-PM und Alpa-Vision-GF (parallel). Diskretions-Linie laut alex-gross: „alpa darf in keiner Becker-Korrespondenz auftauchen, Ralf weiss nichts.”

Offene Entscheidungen (Marvin)

  1. MCP-SSF Schaerfungs-Vorschlaege 1-4 — welche umsetzen, welche parken? Geringer Aufwand pro Stueck.
  2. Notar-Draft — passt der Text, oder weicher/direkter? Sag „passt, schick raus” oder „aendere X”.
  3. Markus Erlei — wann werden die Anpassungen gemacht, soll der Soeren-Termin vor oder nach der Reply koordiniert werden?
  4. Stipendium-Auszahlungs-Status — beim 28.05.-Termin mit Kolbe ansprechen, oder vorher Mail an Kolbe / Bezirksregierung Arnsberg?
  5. Geschaeftsmodell-Verdichtung — die 4-Tracks-These ist nicht im Vault als Entscheidung, sondern in diesem Session-Log. Wenn sie standhaelt, gehoert sie in fahrplan oder als Decision Record in wissen/entscheidungen/.

Was beim naechsten Mal zuerst

Reihenfolge-Vorschlag fuer naechste Session:

  1. Notar-Draft pruefen + senden (1 min)
  2. Joern-Detail aus WhatsApp ziehen + Mini-File komplettieren (5 min)
  3. Markus-Anpassungen machen + Reply rausschicken (Aufwand offen, ~30-60 min?)
  4. MCP-SSF Entscheidung zu Saeule-DSGVO + Naming (15-30 min)

Bezug zu bestehenden Files

0 Dateien in diesem Ordner.