Session 2026-05-19 — MCPMark-Recherche und Cash-Snapshot

Live-Mitschrift der wichtigsten Erkenntnisse, Entscheidungen und Vault-Aenderungen aus dem heutigen Chat. Quelle der Wahrheit fuer Folge-Session.

TL;DR

MCPMark gescraped + arXiv 2509.24002 ausgewertet — komplettes Leaderboard (39 Modelle) extrahiert. Bestaetigt das US-Tool-Bias und liefert harte Zahlen zum Modell-Mix-Argument.
MCPMark misst Modelle, nicht MCPs. Marvins Idee war aber MCPs zu messen — und die ist bereits ausgearbeitet als MCP-SSF (MCP Security Scoring Framework) im Projekt _index. Drei Schaerfungs-Vorschlaege offen.
Geschaeftsmodelle-Brainstorm war Sidequest, wurde erkannt und auf konkrete Hilfe umgeschaltet. Vier-Tracks-Verdichtung als Notiz.
Cash-Status sauber sortiert — 3 externe Blocker (Notar / Stipendium / HR-Eintragung), Pipeline-Eintraege gepflegt, Notar-Reply als Draft ungesendet im Postfach.

Was wurde im Vault geaendert

Datei	Aenderung
joern	Neu (cust-011, Stub). Forderungs-Tabelle 300 EUR fuer Schulung (3h × 100, vermutlich via WhatsApp organisiert, Detail offen). Tags `placeholder / detail-offen`.
angebot-alex	Frontmatter `status: draft` → `status: sent`, plus `sent_date: 2026-05-18`.
woehrle	Status-Absatz ergaenzt um Subkontraktor-Modell mit Alex Gross / Alpa-Vision. Neue `## Pipeline`-Sektion mit 2.000 EUR Setup + Option A (150/Mo) und Option B (200/Mo). Wichtig: Rechnungsstellung geht an Alpa-Vision, nicht direkt an Wohrle.
Gmail-Draft Notar Berghoff	Ungesendet im hello@-Postfach, Thread mit Berghoff. Status-Nachfrage zur HRB-Anmeldung nach 14 Tagen Funkstille. Wartet auf Marvins OK zum Versenden.

MCPMark — was wirklich da ist

Paper: arXiv 2509.24002, Sep 2025, CC-BY-4.0, 15 Autoren (EVAL SYS / LobeHub / NUS TRAIL), 42 Seiten
Repo: eval-sys/mcpmark, 417⭐ / 36 Forks, Apache-2.0, Python, last push 2026-05-13
Suite: 127 Standard-Tasks + 50 Easy-Tasks ueber 5 MCP-Services (Notion, GitHub, Filesystem, Postgres, Playwright). Jede Task hat verify.py (regelbasiert, kein LLM-as-Judge), isolierte Sandboxes, Pinned Versionen.
Metriken: Schnitt 16,2 Turns + 17,4 Tool-Calls pro Task. Multi-Run pass@1 / pass@k / pass^k / avg@k.
Insight aus Insforge-PR #214: „better MCP servers achieve better results with fewer tokens” → MCP-Qualitaet ist messbar als Token-Effizienz × Erfolgsrate.

Leaderboard Top-15 (avgSuccessRate, scraped via next_f-Payload)

Rang	Modell	Score
1	gpt-5-2-high	57,5 %
2	gemini-3-pro-high	53,9 %
3	gpt-5-medium	52,6 %
4	gpt-5-high	51,6 %
5	gemini-3-pro-low	50,8 %
6	gpt-5-low	46,9 %
7	claude-opus-4-5-high	42,3 %
8	deepseek-v3-2-thinking	36,8 % (bestes Open-Source)
9	claude-sonnet-4-5	32,1 %
10	grok-4	31,7 %
11	gpt-5-mini-high	30,3 %
12	claude-opus-4-1	29,9 %
13	deepseek-v3-2-chat	29,7 %
14	claude-sonnet-4 (high/medium/low)	28,4 / 28,2 / 27,4 %
15	o3	25,4 %

Volle 39 Modelle plus arXiv-Abstract sind im persistierten Tool-Result tool-results/by7nxbtyj.txt der Session.

DSGVO-Lens

Mistral, Aleph Alpha, Llama-Familie, PhariaAI alle nicht im Leaderboard → MCPMark deckt EU/DSGVO-Stack nicht ab. Argument fuer eigenes DACH-Benchmark.
Sonnet-4-5 nur 32 %, Opus-4-5 nur 42 % — der Abstand Opus↔Sonnet bei Anthropic ist auffaellig gross (10 pp), bei GPT-5 nur ~5 pp. Argument fuer Modell-Mix in _index.
gpt-oss-120b 4,7 %, gemini-2-5-flash 9 % → kleine/Open-Source-Modelle bei Multi-Tool-Workflows aktuell chancenlos.

MCP-SSF — bestehende Idee, drei offene Schaerfungs-Vorschlaege

Die „MCPs bewerten + DSGVO + Marketing”-Vision existiert bereits seit 2026-05-18 als Projekt _index + Recherche report. Aufwand-Budget 10-12 Halbtage bis 2026-06-15. Pilot mcp-papierkram durch (0 CRIT / 0 HIGH / 3 MED).

Drei Vorschlaege aus dem MCPMark-Vergleich, alle noch nicht entschieden:

#	Vorschlag	Aufwand	Status
1	DSGVO als eigene vierte Saeule in MCP-SSF v0.1 (Hosting-Region, AVV, Subprozessoren, Logging-PII, Loeschkonzept, Audit-Log-Retention, Cache-Sharing-Disclosure) statt eine von 60-80 Controls	1-2h Brainstorm + Doku-Ergaenzung in `plan.md`	OFFEN
2	Funktional-Dimension als optionaler V2-Add-On-Score — Methodik von MCPMark/insforge, eigene 5-10 Standard-Tasks pro Profil. Im Plan reservieren, nicht jetzt bauen	30 min Plan-Update	OFFEN
3	Repo-Naming + Brand-Entscheidung — `mcp-security-audits` ist eng wenn DSGVO + Funktional rein sollen. Alternativen: `mcp-trust-index`, `mcp-ssf-index`, `mcp-observatory`	15 min Entscheidung	OFFEN

Zusatz-Vorschlag (Marvins Flywheel-Insight in dieser Session):

#	Vorschlag	Aufwand	Status
4	Phase 0.5 „Self-Bench-Loop” zwischen Pattern (Phase 2) und Audit 2+3 (Phase 3): jeder Eigenbau-MCP `/mcp-audit --profile <P0..P3>`-Self-Run als Quality-Gate vor Release, Findings ueber HIGH → Issue, Score-Verlauf in `dashboard/data/scores.csv` historisch, Pattern-Findings zurueck in mcp-best-practices	30 min Plan-Update, kein neuer Code	OFFEN

Drei-Schichten-Compound (Marvin):

Bau-Quality-Loop intern — jeder Audit-Control wird zur Standard-Checkliste fuer Eigenbauten
Self-Showcase-Effekt extern — wer den Massstab setzt UND ihn ueberfaellt hat doppelte Authority
Konkrete MCPs die ab heute profitieren: mcp-whatsapp, mcp-vf-hosted, mcp-lexware (Phase 4), mcp-zettle (Skeleton)

Geschaeftsmodelle der Agent-Welt (Sidequest-Brainstorm)

Marvin hat selbst erkannt dass das Sidequest war. Trotzdem als Notiz festgehalten weil substantiell:

Vier Tracks zu verdichten (statt sieben parallel):

Service (heute, zahlt Miete) — Setup + Workshop + Implementation, bleibt Cash-Anker bis 10k MRR
Tool-Layer (waechst) — MCP-Hosting mit DACH/AVV-USP, pro Tenant, nicht pro Call, verkauft als Teil des Service-Pakets
Trust-Layer (Authority-Builder) — MCP-SSF + public-mcp-audits, senkt Sales-Cycle bei 1+2 drastisch
Audit-Trail / GoBD (Mittelfrist-Margenbringer) — av-audit, einziger Layer im Stack mit echtem Lock-in (10-Jahre-Retention), Becker als Dogfood

Pures MCP-Wrappen ist in 18 Monaten unter Margen-Druck (Composio + Smithery + Anthropic Custom Connector). Nicht alleinstehend tragfaehig, aber als Frequency-Anker in einem Stack mit Trust + Service wertvoll (hebt Bewertung von 1× auf 3-5× ARR).

Strategie-Frage zum Verdichten: „Was muessen wir tun, damit ein Kaeufer einer KMU-Loesung in 2027 als Erstes an Agentic Ventures denkt, nicht an Anthropic Cowork oder Composio?” → Trust-Layer + Branchen-Tiefe + Service-Wrapper.

Optionen die nicht aktiv vorangetrieben werden sollen: Vertical Agents (HeyJulia, av-voice — nur wenn Reseller-Deal kommt), Output-Layer (mittelstand-index — 2027er Wochenend-Hack), Marketplaces (out-of-scope fuer Solo).

Cash-Status — drei externe Blocker

Handelsregister / Notar Berghoff-Deppenkemper (info@berghoff-deppenkemper.de)

05.05.: Marvin schickt Qonto-Kontoauszug zur Stammkapital-Einzahlung (2.500 EUR auf Treuhandkonto) an Herrn Berghoff
06.05.: Qonto schreibt „one step away — submit proof of application (Handelsregisteranmeldung)” — auch Qonto wartet auf Notar-Einreichungs-Bestaetigung
05.05. bis heute: keine Antwort vom Notar (14 Tage Funkstille)
Heute: Notar-Reply als Draft im Postfach (ungesendet, wartet auf Marvins OK)

Stipendium NRW

04.03.: Jurysitzung, Empfehlung ausgesprochen (Empfangs-Mail Anke Schulze-Altenmethler, IHK Dortmund/Hamm)
05.03.: Katja Kolbe (IMPULS Hamm) als Gruendungscoachin zugewiesen
25.03.: Schulze-Altenmethler reicht Kontakt zu Herrn Puetter weiter
18.05.: Kolbe verschiebt naechsten Austauschtermin von Di 26.05. auf Do 28.05. 14:00
Wichtige Unterscheidung: Jury-Empfehlung ≠ Auszahlung. Foerderantrag muss bei Bezirksregierung Arnsberg gestellt + bewilligt werden — da haengt es. Kolbe weiss vermutlich wo.

Rechnungen stellen geht erst nach HR-Eintragung

Erlei 1.700 EUR (Stand laut erlei ## Offene Forderungen — leicht hoeher als 1.350 in marvin-projekt-context)
Icking 400 EUR + Festpreis-Projekt
Wohrle 127 EUR/Monat recurring seit 27.04. (laeuft, nur Faktura blockiert)
Joern 300 EUR fuer Schulung (neu eingetragen)
Becker (vermutlich vierstellig) Vertragspaket am 13.05. raus, Unterschrift offen

Tag-1-fakturierbar nach HR-Eintragung: Erlei 1.700 + Icking 400 + Wohrle Mai + Joern 300 = ~2.500-2.700 EUR plus 127/Mo recurring.

Email-Highlights heute (Mo 18.05.)

Markus Erlei 14:56 — fragt nach Anpassungs-Update + Soeren-Termin. Ball bei Marvin. Marvin macht die Anpassungen erst nochmal selbst, Reply spaeter.
Becker „Digitaler Zwilling” Kick-Off — steht: Di 26.05. 15:00 in Boenen (Teams-Link Stoecker), Kalender ist gepflegt
Luisa Kornmann (Becker NDA) — Marvin hat 14:47 nach unterschriftsreifer Version gefragt, wartet auf Antwort. Ralf wuenschte Luisa Genesung → krank, evtl. Verzoegerung
Patricia Preuss (Becker) — Out-of-Office bis 20.05.
Katja Kolbe (Stipendium) — Termin 26.05. → 28.05. 14:00 verschoben
Bedrock Budget Alert Account 425924867359 + av-production Account 343241684374 — ueber Threshold, passt zu _index
WhatsApp Business Display-Name „Agentic Receptionist” abgelehnt — neuer Name beantragen
PayPal Business 3 Mails (Tax-Info + Email-Verifikation) noetig fuer Geschaeftskonto-Aktivierung
Florian Schubert (Icking) + Nicole/Christoph Icking — Marvin hat Pipeline-Rebuild-Updates rausgeschickt
Palina/Alex (Alpa-Vision) — Handwerks-Deal-Listenpreis bestaetigt: 6.400 EUR Setup + 600 EUR/Mo als Marvins Einkauf, Alex schlaegt frei drauf
Alex Gross / Wohrle-Angebot — Mail an .de Bounce, 30 min spaeter an .com durch (bereits korrigiert)

Klarstellungen + gefangene Memory-Fehler

Papierkram ist Vibe-Factory-Mandant, NICHT AV. Vault buchhaltungs-stack und papierkram stehen bereits korrekt. AV-Buchhaltung laeuft via sevDesk (in Vorbereitung, nicht aktiv weil UG nicht eingetragen).
Memory-Reflex korrigiert — ich wollte ungefragt papierkram_offene_posten aufrufen, das waeren VF-Daten gewesen. Wichtige Erinnerung an intern/firma/marvin-profile: Vault ist Wahrheit, nicht Tool-Memory.
Alex Gross ist eine Person, zwei Rollen — Becker-PM und Alpa-Vision-GF (parallel). Diskretions-Linie laut alex-gross: „alpa darf in keiner Becker-Korrespondenz auftauchen, Ralf weiss nichts.”

Offene Entscheidungen (Marvin)

MCP-SSF Schaerfungs-Vorschlaege 1-4 — welche umsetzen, welche parken? Geringer Aufwand pro Stueck.
Notar-Draft — passt der Text, oder weicher/direkter? Sag „passt, schick raus” oder „aendere X”.
Markus Erlei — wann werden die Anpassungen gemacht, soll der Soeren-Termin vor oder nach der Reply koordiniert werden?
Stipendium-Auszahlungs-Status — beim 28.05.-Termin mit Kolbe ansprechen, oder vorher Mail an Kolbe / Bezirksregierung Arnsberg?
Geschaeftsmodell-Verdichtung — die 4-Tracks-These ist nicht im Vault als Entscheidung, sondern in diesem Session-Log. Wenn sie standhaelt, gehoert sie in fahrplan oder als Decision Record in wissen/entscheidungen/.

Was beim naechsten Mal zuerst

Reihenfolge-Vorschlag fuer naechste Session:

Notar-Draft pruefen + senden (1 min)
Joern-Detail aus WhatsApp ziehen + Mini-File komplettieren (5 min)
Markus-Anpassungen machen + Reply rausschicken (Aufwand offen, ~30-60 min?)
MCP-SSF Entscheidung zu Saeule-DSGVO + Naming (15-30 min)

Bezug zu bestehenden Files

Projekt-Index public-mcp-audits: _index
Plan public-mcp-audits Phase 2: plan
MCP-SSF Research-Report (Pivot-Begruendung): report
Modell-Vergleich DSGVO: modell-vergleich-dsgvo
Bedrock-Cost-Optimize: _index
Joern-Stub: joern
Wohrle + Pipeline: woehrle
Wohrle-Stack-Angebot: angebot-alex
Marvin Projekt-Context: marvin-projekt-context
Buchhaltungs-Stack (Papierkram-Klarstellung): buchhaltungs-stack

Agentic Ventures Wiki

Explorer

_index