Run 2026-05-13 — System-Prompt-Patterns Research

Trigger

Open WebUI vf-sonnet (Sonnet 4.6 + 3 MCPs fuer Vibe Factory) zeigt zwei wiederkehrende Probleme im Live-Use:

  1. Aufgabe wird beim ersten Tool-Fehler abgebrochen — Sonnet sagt „geht nicht, sorry” statt 1-2 Recovery-Varianten zu probieren (TicketPAY „Unknown index”-Case 2026-05-13)
  2. Falsche Tool-Wahl wenn mehrere aehnlich klingende Tools verfuegbar sind (papierkram_get_invoice_pdf statt Code-Interpreter fuer PDF-Erzeugung aus Chat-Inhalten, 2026-05-13)

Vor Hand-Edit am Prompt erst Recherche: was machen die grossen Anbieter (Anthropic, OpenAI, Cursor, Windsurf, Perplexity, Bolt, Notion AI, Grok, etc.)? Was ist sicher (offizielle Anthropic-Doku, mehrfach reproduzierte Leaks) vs. unzuverlaessig?

Ausfuehrung

  • Agent: compound-engineering:research:best-practices-researcher
  • Quellen: 4 Leak-Repos durchsucht, 14 konkrete Prompt-Files verifiziert, offizielle Anthropic + OpenAI Specs gelesen
  • Dauer: ~10 Min, 49 Tool-Calls, 205k Tokens total

Output

  • findings.md — Vollstaendiger Recherche-Report
  • system-prompt-patterns — verdichtetes Pattern-File (5 Adoptions-Patterns + 3 Anti-Patterns + 8 Adaptions-Snippets)
  • vf-sonnet v2 Prompt-Draft direkt in Open WebUI Custom-Model vf-sonnet eingespielt (live, ueberschreibt vorherige Version)

Wichtigste Ergebnisse (TL;DR)

  1. Anthropic Sonnet 4.5 chat.com Prompt (Jan 2026, ~3000 Tokens) ist Primary Source — Sonnet ist auf XML-Section-Tags trainiert, copy-paste-fertig adaptierbar
  2. Sweet-Spot fuer Multi-Tool-Productivity-Assistant: 2000-2500 Tokens (wir kommen aus ~780, also viel Platz)
  3. Injection-Defense fuer Tool-Outputs (Claude in Chrome Pattern) fehlt uns komplett — VF empfaengt Tickets von Externen, Emails von Kunden, Risiko ist real
  4. Tool-Schema NICHT im Prompt duplizieren (Cursor-Suende) — MCP-Tool-Descriptions sind die Wahrheit, Prompt sagt nur wann, nicht was
  5. „CRITICAL”/„IMPORTANT”-Inflation vermeiden — semantische XML-Tags statt Caps-Schreien
  6. Positive Stil-Targeting > Negation offiziell empfohlen, aber konkrete Wort-Bans funktionieren in der Praxis (Perplexity, Sonnet 4.6) — z.B. „Claude avoids saying ‘genuinely’, ‘honestly‘“

Quellen-Highlights

Vollstaendige Quellen-Liste mit Frische-Bewertung in findings.md.

Follow-Ups

  • vf-sonnet v2 Prompt-Draft live geschickt — siehe Update am vf-sonnet System-Prompt (2026-05-13 nach diesem Run)
  • Smoke-Test: gleiche TicketPAY-Query nochmal stellen, verifizieren dass Fehler-Resilienz-Klausel + Tool-Wahl greift
  • A/B nach 1-2 Wochen Production-Use: hat das Verhalten sich messbar verbessert?
  • Pattern auf andere zukuenftige Custom-Models uebertragen (z.B. vf-haiku falls wir das anbauen)

1 Datei in diesem Ordner.