Session 2026-05-19 — MCPMark-Recherche und Cash-Snapshot
Live-Mitschrift der wichtigsten Erkenntnisse, Entscheidungen und Vault-Aenderungen aus dem heutigen Chat. Quelle der Wahrheit fuer Folge-Session.
TL;DR
- MCPMark gescraped + arXiv 2509.24002 ausgewertet — komplettes Leaderboard (39 Modelle) extrahiert. Bestaetigt das US-Tool-Bias und liefert harte Zahlen zum Modell-Mix-Argument.
- MCPMark misst Modelle, nicht MCPs. Marvins Idee war aber MCPs zu messen — und die ist bereits ausgearbeitet als MCP-SSF (MCP Security Scoring Framework) im Projekt _index. Drei Schaerfungs-Vorschlaege offen.
- Geschaeftsmodelle-Brainstorm war Sidequest, wurde erkannt und auf konkrete Hilfe umgeschaltet. Vier-Tracks-Verdichtung als Notiz.
- Cash-Status sauber sortiert — 3 externe Blocker (Notar / Stipendium / HR-Eintragung), Pipeline-Eintraege gepflegt, Notar-Reply als Draft ungesendet im Postfach.
Was wurde im Vault geaendert
| Datei | Aenderung |
|---|---|
| joern | Neu (cust-011, Stub). Forderungs-Tabelle 300 EUR fuer Schulung (3h × 100, vermutlich via WhatsApp organisiert, Detail offen). Tags placeholder / detail-offen. |
| angebot-alex | Frontmatter status: draft → status: sent, plus sent_date: 2026-05-18. |
| woehrle | Status-Absatz ergaenzt um Subkontraktor-Modell mit Alex Gross / Alpa-Vision. Neue ## Pipeline-Sektion mit 2.000 EUR Setup + Option A (150/Mo) und Option B (200/Mo). Wichtig: Rechnungsstellung geht an Alpa-Vision, nicht direkt an Wohrle. |
| Gmail-Draft Notar Berghoff | Ungesendet im hello@-Postfach, Thread mit Berghoff. Status-Nachfrage zur HRB-Anmeldung nach 14 Tagen Funkstille. Wartet auf Marvins OK zum Versenden. |
MCPMark — was wirklich da ist
- Paper: arXiv 2509.24002, Sep 2025, CC-BY-4.0, 15 Autoren (EVAL SYS / LobeHub / NUS TRAIL), 42 Seiten
- Repo: eval-sys/mcpmark, 417⭐ / 36 Forks, Apache-2.0, Python, last push 2026-05-13
- Suite: 127 Standard-Tasks + 50 Easy-Tasks ueber 5 MCP-Services (Notion, GitHub, Filesystem, Postgres, Playwright). Jede Task hat
verify.py(regelbasiert, kein LLM-as-Judge), isolierte Sandboxes, Pinned Versionen. - Metriken: Schnitt 16,2 Turns + 17,4 Tool-Calls pro Task. Multi-Run pass@1 / pass@k / pass^k / avg@k.
- Insight aus Insforge-PR #214: „better MCP servers achieve better results with fewer tokens” → MCP-Qualitaet ist messbar als Token-Effizienz × Erfolgsrate.
Leaderboard Top-15 (avgSuccessRate, scraped via next_f-Payload)
| Rang | Modell | Score |
|---|---|---|
| 1 | gpt-5-2-high | 57,5 % |
| 2 | gemini-3-pro-high | 53,9 % |
| 3 | gpt-5-medium | 52,6 % |
| 4 | gpt-5-high | 51,6 % |
| 5 | gemini-3-pro-low | 50,8 % |
| 6 | gpt-5-low | 46,9 % |
| 7 | claude-opus-4-5-high | 42,3 % |
| 8 | deepseek-v3-2-thinking | 36,8 % (bestes Open-Source) |
| 9 | claude-sonnet-4-5 | 32,1 % |
| 10 | grok-4 | 31,7 % |
| 11 | gpt-5-mini-high | 30,3 % |
| 12 | claude-opus-4-1 | 29,9 % |
| 13 | deepseek-v3-2-chat | 29,7 % |
| 14 | claude-sonnet-4 (high/medium/low) | 28,4 / 28,2 / 27,4 % |
| 15 | o3 | 25,4 % |
Volle 39 Modelle plus arXiv-Abstract sind im persistierten Tool-Result tool-results/by7nxbtyj.txt der Session.
DSGVO-Lens
- Mistral, Aleph Alpha, Llama-Familie, PhariaAI alle nicht im Leaderboard → MCPMark deckt EU/DSGVO-Stack nicht ab. Argument fuer eigenes DACH-Benchmark.
- Sonnet-4-5 nur 32 %, Opus-4-5 nur 42 % — der Abstand Opus↔Sonnet bei Anthropic ist auffaellig gross (10 pp), bei GPT-5 nur ~5 pp. Argument fuer Modell-Mix in _index.
- gpt-oss-120b 4,7 %, gemini-2-5-flash 9 % → kleine/Open-Source-Modelle bei Multi-Tool-Workflows aktuell chancenlos.
MCP-SSF — bestehende Idee, drei offene Schaerfungs-Vorschlaege
Die „MCPs bewerten + DSGVO + Marketing”-Vision existiert bereits seit 2026-05-18 als Projekt _index + Recherche report. Aufwand-Budget 10-12 Halbtage bis 2026-06-15. Pilot mcp-papierkram durch (0 CRIT / 0 HIGH / 3 MED).
Drei Vorschlaege aus dem MCPMark-Vergleich, alle noch nicht entschieden:
| # | Vorschlag | Aufwand | Status |
|---|---|---|---|
| 1 | DSGVO als eigene vierte Saeule in MCP-SSF v0.1 (Hosting-Region, AVV, Subprozessoren, Logging-PII, Loeschkonzept, Audit-Log-Retention, Cache-Sharing-Disclosure) statt eine von 60-80 Controls | 1-2h Brainstorm + Doku-Ergaenzung in plan.md | OFFEN |
| 2 | Funktional-Dimension als optionaler V2-Add-On-Score — Methodik von MCPMark/insforge, eigene 5-10 Standard-Tasks pro Profil. Im Plan reservieren, nicht jetzt bauen | 30 min Plan-Update | OFFEN |
| 3 | Repo-Naming + Brand-Entscheidung — mcp-security-audits ist eng wenn DSGVO + Funktional rein sollen. Alternativen: mcp-trust-index, mcp-ssf-index, mcp-observatory | 15 min Entscheidung | OFFEN |
Zusatz-Vorschlag (Marvins Flywheel-Insight in dieser Session):
| # | Vorschlag | Aufwand | Status |
|---|---|---|---|
| 4 | Phase 0.5 „Self-Bench-Loop” zwischen Pattern (Phase 2) und Audit 2+3 (Phase 3): jeder Eigenbau-MCP /mcp-audit --profile <P0..P3>-Self-Run als Quality-Gate vor Release, Findings ueber HIGH → Issue, Score-Verlauf in dashboard/data/scores.csv historisch, Pattern-Findings zurueck in mcp-best-practices | 30 min Plan-Update, kein neuer Code | OFFEN |
Drei-Schichten-Compound (Marvin):
- Bau-Quality-Loop intern — jeder Audit-Control wird zur Standard-Checkliste fuer Eigenbauten
- Self-Showcase-Effekt extern — wer den Massstab setzt UND ihn ueberfaellt hat doppelte Authority
- Konkrete MCPs die ab heute profitieren: mcp-whatsapp, mcp-vf-hosted, mcp-lexware (Phase 4), mcp-zettle (Skeleton)
Geschaeftsmodelle der Agent-Welt (Sidequest-Brainstorm)
Marvin hat selbst erkannt dass das Sidequest war. Trotzdem als Notiz festgehalten weil substantiell:
Vier Tracks zu verdichten (statt sieben parallel):
- Service (heute, zahlt Miete) — Setup + Workshop + Implementation, bleibt Cash-Anker bis 10k MRR
- Tool-Layer (waechst) — MCP-Hosting mit DACH/AVV-USP, pro Tenant, nicht pro Call, verkauft als Teil des Service-Pakets
- Trust-Layer (Authority-Builder) — MCP-SSF + public-mcp-audits, senkt Sales-Cycle bei 1+2 drastisch
- Audit-Trail / GoBD (Mittelfrist-Margenbringer) — av-audit, einziger Layer im Stack mit echtem Lock-in (10-Jahre-Retention), Becker als Dogfood
Pures MCP-Wrappen ist in 18 Monaten unter Margen-Druck (Composio + Smithery + Anthropic Custom Connector). Nicht alleinstehend tragfaehig, aber als Frequency-Anker in einem Stack mit Trust + Service wertvoll (hebt Bewertung von 1× auf 3-5× ARR).
Strategie-Frage zum Verdichten: „Was muessen wir tun, damit ein Kaeufer einer KMU-Loesung in 2027 als Erstes an Agentic Ventures denkt, nicht an Anthropic Cowork oder Composio?” → Trust-Layer + Branchen-Tiefe + Service-Wrapper.
Optionen die nicht aktiv vorangetrieben werden sollen: Vertical Agents (HeyJulia, av-voice — nur wenn Reseller-Deal kommt), Output-Layer (mittelstand-index — 2027er Wochenend-Hack), Marketplaces (out-of-scope fuer Solo).
Cash-Status — drei externe Blocker
Handelsregister / Notar Berghoff-Deppenkemper (info@berghoff-deppenkemper.de)
- 05.05.: Marvin schickt Qonto-Kontoauszug zur Stammkapital-Einzahlung (2.500 EUR auf Treuhandkonto) an Herrn Berghoff
- 06.05.: Qonto schreibt „one step away — submit proof of application (Handelsregisteranmeldung)” — auch Qonto wartet auf Notar-Einreichungs-Bestaetigung
- 05.05. bis heute: keine Antwort vom Notar (14 Tage Funkstille)
- Heute: Notar-Reply als Draft im Postfach (ungesendet, wartet auf Marvins OK)
Stipendium NRW
- 04.03.: Jurysitzung, Empfehlung ausgesprochen (Empfangs-Mail Anke Schulze-Altenmethler, IHK Dortmund/Hamm)
- 05.03.: Katja Kolbe (IMPULS Hamm) als Gruendungscoachin zugewiesen
- 25.03.: Schulze-Altenmethler reicht Kontakt zu Herrn Puetter weiter
- 18.05.: Kolbe verschiebt naechsten Austauschtermin von Di 26.05. auf Do 28.05. 14:00
- Wichtige Unterscheidung: Jury-Empfehlung ≠ Auszahlung. Foerderantrag muss bei Bezirksregierung Arnsberg gestellt + bewilligt werden — da haengt es. Kolbe weiss vermutlich wo.
Rechnungen stellen geht erst nach HR-Eintragung
- Erlei 1.700 EUR (Stand laut erlei
## Offene Forderungen— leicht hoeher als 1.350 in marvin-projekt-context) - Icking 400 EUR + Festpreis-Projekt
- Wohrle 127 EUR/Monat recurring seit 27.04. (laeuft, nur Faktura blockiert)
- Joern 300 EUR fuer Schulung (neu eingetragen)
- Becker (vermutlich vierstellig) Vertragspaket am 13.05. raus, Unterschrift offen
Tag-1-fakturierbar nach HR-Eintragung: Erlei 1.700 + Icking 400 + Wohrle Mai + Joern 300 = ~2.500-2.700 EUR plus 127/Mo recurring.
Email-Highlights heute (Mo 18.05.)
- Markus Erlei 14:56 — fragt nach Anpassungs-Update + Soeren-Termin. Ball bei Marvin. Marvin macht die Anpassungen erst nochmal selbst, Reply spaeter.
- Becker „Digitaler Zwilling” Kick-Off — steht: Di 26.05. 15:00 in Boenen (Teams-Link Stoecker), Kalender ist gepflegt
- Luisa Kornmann (Becker NDA) — Marvin hat 14:47 nach unterschriftsreifer Version gefragt, wartet auf Antwort. Ralf wuenschte Luisa Genesung → krank, evtl. Verzoegerung
- Patricia Preuss (Becker) — Out-of-Office bis 20.05.
- Katja Kolbe (Stipendium) — Termin 26.05. → 28.05. 14:00 verschoben
- Bedrock Budget Alert Account 425924867359 + av-production Account 343241684374 — ueber Threshold, passt zu _index
- WhatsApp Business Display-Name „Agentic Receptionist” abgelehnt — neuer Name beantragen
- PayPal Business 3 Mails (Tax-Info + Email-Verifikation) noetig fuer Geschaeftskonto-Aktivierung
- Florian Schubert (Icking) + Nicole/Christoph Icking — Marvin hat Pipeline-Rebuild-Updates rausgeschickt
- Palina/Alex (Alpa-Vision) — Handwerks-Deal-Listenpreis bestaetigt: 6.400 EUR Setup + 600 EUR/Mo als Marvins Einkauf, Alex schlaegt frei drauf
- Alex Gross / Wohrle-Angebot — Mail an
.deBounce, 30 min spaeter an.comdurch (bereits korrigiert)
Klarstellungen + gefangene Memory-Fehler
- Papierkram ist Vibe-Factory-Mandant, NICHT AV. Vault buchhaltungs-stack und papierkram stehen bereits korrekt. AV-Buchhaltung laeuft via sevDesk (in Vorbereitung, nicht aktiv weil UG nicht eingetragen).
- Memory-Reflex korrigiert — ich wollte ungefragt
papierkram_offene_postenaufrufen, das waeren VF-Daten gewesen. Wichtige Erinnerung anintern/firma/marvin-profile: Vault ist Wahrheit, nicht Tool-Memory. - Alex Gross ist eine Person, zwei Rollen — Becker-PM und Alpa-Vision-GF (parallel). Diskretions-Linie laut alex-gross: „alpa darf in keiner Becker-Korrespondenz auftauchen, Ralf weiss nichts.”
Offene Entscheidungen (Marvin)
- MCP-SSF Schaerfungs-Vorschlaege 1-4 — welche umsetzen, welche parken? Geringer Aufwand pro Stueck.
- Notar-Draft — passt der Text, oder weicher/direkter? Sag „passt, schick raus” oder „aendere X”.
- Markus Erlei — wann werden die Anpassungen gemacht, soll der Soeren-Termin vor oder nach der Reply koordiniert werden?
- Stipendium-Auszahlungs-Status — beim 28.05.-Termin mit Kolbe ansprechen, oder vorher Mail an Kolbe / Bezirksregierung Arnsberg?
- Geschaeftsmodell-Verdichtung — die 4-Tracks-These ist nicht im Vault als Entscheidung, sondern in diesem Session-Log. Wenn sie standhaelt, gehoert sie in fahrplan oder als Decision Record in
wissen/entscheidungen/.
Was beim naechsten Mal zuerst
Reihenfolge-Vorschlag fuer naechste Session:
- Notar-Draft pruefen + senden (1 min)
- Joern-Detail aus WhatsApp ziehen + Mini-File komplettieren (5 min)
- Markus-Anpassungen machen + Reply rausschicken (Aufwand offen, ~30-60 min?)
- MCP-SSF Entscheidung zu Saeule-DSGVO + Naming (15-30 min)
Bezug zu bestehenden Files
- Projekt-Index public-mcp-audits: _index
- Plan public-mcp-audits Phase 2: plan
- MCP-SSF Research-Report (Pivot-Begruendung): report
- Modell-Vergleich DSGVO: modell-vergleich-dsgvo
- Bedrock-Cost-Optimize: _index
- Joern-Stub: joern
- Wohrle + Pipeline: woehrle
- Wohrle-Stack-Angebot: angebot-alex
- Marvin Projekt-Context: marvin-projekt-context
- Buchhaltungs-Stack (Papierkram-Klarstellung): buchhaltungs-stack