Reset-Prompt fuer naechste Session

Marvin’s Befund nach 6 Phasen Iteration: „Sieht gar nicht gut aus. Scheiß cuts, viel zu schnell und abgehackt. Overlays passen nicht. Sticker sieht scheisse aus.” Diese Session muss alles auf YouTube-Profi-Niveau heben.

Was schief gelaufen ist (ehrliche Diagnose)

  1. Schnitt-Pacing total daneben. Sub-Cuts haben Duration 42-63 Sek. Profi-YouTube macht 3-7 Sek pro Shot bei Talking-Vlog (AIR Media-Tech, Indirap). Ich hab einen Talking-Head 50 Sek lang stehen lassen — klassischer Drop-Spot.

  2. Cuts cutten an falschen Stellen. Profi-Regel: „Cut on motion” — bei Bewegung schneiden, nicht im Stillstand. Ich cutte zwischen Sub-Cuts auf willkuerlichen Audio-Boundaries.

  3. Keine J-Cuts / L-Cuts. Audio bricht mit Video-Schnitt ab → wirkt abgehackt. Profi: Audio des naechsten Clips beginnt vor dem Bildwechsel (J-Cut) oder Audio des aktuellen laeuft nach Bildwechsel weiter (L-Cut).

  4. Overlays kollidieren mit Hintergrund. Theme-Migration: text=#0A0A0A (fast schwarz). Whiteboard-Display in 0042 ist gruen-ish. Schwarz auf Forest-Green = unleserlich. Ich haette Kontrast pruefen muessen.

  5. „Immer noch 0 €“-Stamp war ungelernt. Solid-Border + Rotation + Forest-Green-on-White = looks like 2008-PowerPoint-Stempel. Profi-YouTube macht das mit subtilen Lower-Third-Inserts oder TikTok-Style-Caption-Animationen, nicht mit Plumpen Stempeln.

  6. Captions fehlen. TikTok-Style-Captions mit Word-Highlight (Highlight-Color wechselt pro gesprochenes Wort) sind 2026-Standard. Wir haben Word-Level-WhisperX-Daten (0034.json + 0042.json) — nicht genutzt.

  7. B-Roll ist Placeholder-Gradient. AtmosphereInterludes sind nur warmer Hintergrund. Profi macht echte B-Roll-Cutaways alle 60-90 Sek als Pattern-Interrupt.

  8. Keine Descript-Logik fuer Audio-Cleanup. Wir haben Filler + Silence Maps generiert (silence-map-0042.json, filler-map-0042.json), aber sie nicht angewandt. Descript-Pattern: Audio wird auf Word-Level-Basis gecuttet, jeder Cut ist nahtlos.

Was 2026 YouTube-Profis machen (Recherche)

Schnitt-Pacing:

  • Talking-Vlog: 3-7 Sek pro Shot, energetische Stellen 1-3 Sek
  • Erste 3-5 Sek = alles. Kein Logo, kein Intro vor dem Hook
  • B-Roll alle 60-90 Sek mindestens
  • Cut on motion (Geste, Augenbewegung, Koerperneigung)

Audio-Standards:

  • Audio > Visual. Schlechtes Audio = sofort ausgeschaltet
  • J-Cuts und L-Cuts fuer smooth Uebergaenge
  • Filler-Words raus auf Word-Level (Descript-Pattern)
  • Pausen >0.4s ueberlegen, ob raus

Captions:

  • TikTok-Style-Captions mit Word-Highlight sind Default
  • Highlight-Color hebt aktuell gesprochenes Wort
  • 1-3 Woerter pro Page (combineTokensWithinMilliseconds: 1200)
  • Ohne Captions: 80% Mute-Watchers verlassen Video

Visual-Hierarchie:

  • Lower-Thirds (Position-bottom, klein, dezent) > Stempel
  • Subtile Animationen (Spring-Easing, opacity-fade) > harte Effekte
  • Ein Akzent pro Frame (Brand-Doc sagt’s eh)
  • Kontrast-Check: Text muss gegen Hintergrund-Farbe lesbar sein, nicht gegen Brand-Farbe

Hybrid-AI-Workflow (was Profis 2026 machen):

  • Descript fuer Audio-Cleanup auf Word-Level
  • OpusClip fuer automatische Highlight-Extraktion
  • CapCut AI fuer Captions
  • Wir replizieren das in Remotion mit @remotion/captions + Word-Level-Trims

Was die naechste Session machen muss

Phase A — Audio-First Cut (Descript-Pattern, ~60 Min)

Output: Eine Audio-Cut-Liste auf Word-Level-Basis. Jeder Cut ist einzelner Wort-Span (von WhisperX-Timestamp), keine 50-Sek-Bloecke.

  1. 0042.json + 0034.json (WhisperX Word-Level-Timestamps) als Source-of-Truth nehmen.
  2. Filler-Words raus (vorhanden in filler-map-0042.json — 9 Hits, 6s).
  3. Stille >0.6s raus (vorhanden in silence-map-0042.json — 71 Stellen, ~90s).
  4. Wiederholungen raus — Wenn 2 aufeinanderfolgende Saetze sehr aehnlich sind (z.B. „kein Geld verdient. Ich habe bisher nichts verdient”), zweite Aussage rauscutten ODER bewusst behalten als Punchline (Marvin entscheidet).
  5. Drift-Stellen raus — wo Marvin Pfeile zeichnet ohne Inhalt (im 0042-Transkript markiert).
  6. Output: audio-cuts-0042.json mit [{startSec, endSec, text}]-Array — das sind die ZU BEHALTEN-Spans.

Brauche: Marvin reviewt erst Bucket „Wiederholungen” und „Drift-Stellen” weil subjektiv. Filler + Stille koennen blind raus.

Phase B — Composition aus Word-Level-Cuts neu aufbauen (~90 Min)

Output: vlog-mai-Composition wird komplett neu gebaut aus der Cut-Liste — viele kurze Sub-Cuts (30-150 Frames = 1-5 Sek), nicht 1500-Frame-Bloecke.

  1. Cut-Liste als JSON parsen
  2. Pro Cut-Span: <Sequence> mit <Video trimBefore trimAfter>
  3. J-Cut-Pattern: Audio-Sequence startet 4-8 Frames vor Video-Sequence, ueberlappt fuer smooth-Anschluss
  4. L-Cut-Pattern: Audio-Sequence endet 4-8 Frames nach Video-Sequence
  5. Cut on motion: bei der Cut-Auswahl pruefen — wenn Talking-Head am Wort-Ende eine Geste macht, Cut dort. Sonst 4-8 Frames spaeter beim Movement.

Phase C — Captions (TikTok-Style, ~45 Min)

Output: Word-Level-Captions als Layer ueber dem ganzen Video.

  1. npx remotion add @remotion/captions (falls nicht da)
  2. WhisperX-Output (0034.json + 0042.json) zu Caption[] konvertieren
  3. createTikTokStyleCaptions({captions, combineTokensWithinMilliseconds: 1200})
  4. Style:
    • Position: bottom-third, mittig, mit safe-margin
    • Font: Inter Bold 60-70px
    • Color: weiss mit dunklem Drop-Shadow oder Background-Capsule fuer Lesbarkeit auf jedem Hintergrund
    • Highlight-Color (aktuelles Wort): Forest-Green #2D4A3E
    • Animation: Word fade-in subtil, kein Shake/Pop
  5. Brand-Konsistenz: Lora-Italic NICHT in Captions — Captions sind Sans-Only fuer Lesbarkeit. Forest-Green NUR als Word-Highlight.

Phase D — Visual-Hierarchie + Kontrast-Fix (~45 Min)

Output: Overlays, die auf JEDEM Hintergrund (Talking-Head, Display-Whiteboard, Atmosphere) lesbar sind.

  1. Stamp komplett entfernen. Das ist tot.
  2. Lower-Thirds statt Stempel. Position bottom-left (oder bottom-right, je nach Talking-Head-Pip). Stat-Block: kleiner Forest-Green-Akzent-Strich, Inter Display, Kicker darunter. Fade-in/fade-out per opacity.
  3. „0 €“-Punchline neu designen — als unteres Drittel (Lower-Third), Stat-Block:
    • Kleiner Forest-Green-Strich oben (24x2px)
    • „0 €” als Display-Token (Inter 500, 96px, Ink-Color)
    • Kicker darunter „Zwei Monate · all in”
    • Beim zweiten Mal: Kicker switcht subtil zu „Immer noch null.” in Lora-Italic-Forest. Kein Stamp. Kein Bounce.
  4. Kontrast-Pruefung pro Overlay: Wenn Talking-Head-Hintergrund weiss → Text Ink. Wenn Display-Hintergrund gruen-ish → Text weiss + Drop-Shadow oder Caption-Capsule.
  5. Subtile Animationen: Spring-basiert, kein hartes Pop. Easing: motion.easeEditorial aus Theme.

Phase E — B-Roll-Cutaways (~30 Min, Placeholder bis Footage)

Output: Atmosphere-Interludes wirken wie B-Roll, nicht wie Hintergrund-Gradient.

  1. Default: Vox-Style-Section-Marker waehrend Atmosphere — Section-Number, naechster-Block-Title, kein Gradient mehr (passt nicht zur neuen Brand)
  2. Wenn Marvin echtes B-Roll filmt: AtmosphereInterlude akzeptiert videoSrc Prop, dann statt Section-Marker das Footage zeigen
  3. Im Vlog-Mai mindestens 2 B-Roll-Stellen (zwischen Block 1/2 und 2/3)

Phase F — Studio-Iteration mit Marvin (open)

Marvin sieht das Resultat, gibt punktuelles Feedback. Iteration auf Sub-Cut-Ebene.

Phase G — Skill destillieren (~45 Min)

Output: agentic-ventures:vlog-cut als Skill in ~/.claude/plugins/.../.

Skill-Inhalt:

  • Trigger: „cutte vlog”, „make vlog”, „polish vlog”, „bau composition fuer vlog”
  • Knowledge:
    • YouTube-2026-Pacing (3-7s/Shot, J/L-Cuts, Cut-on-motion)
    • Descript-Pattern (Word-Level-Cuts via WhisperX)
    • TikTok-Captions via @remotion/captions
    • Brand-Tokens (Bone, Ink, Forest, Lora, Hairline) aus DESIGN.md
    • Schnitt-Patterns (Hard Cut Default, Zoom-Punch 1.025, Cut+Overlay, Cutaway-Interlude)
    • Standard-Filler-Liste deutsche Vlogs
    • Workflow-Phasen A-F oben

Constraints — was die naechste Session NICHT machen darf

  1. NICHT mehr Stempel / Stamps / Rotated-Border-Boxen designen. Lower-Thirds + Spring-Animationen.
  2. NICHT Sub-Cuts > 10 Sek lassen. Wenn Talking-Head 30 Sek redet, splittet auf 5-7 Cuts mit J/L-Cuts oder B-Roll-Cutaway.
  3. NICHT Text-Overlays bauen ohne Kontrast-Check gegen Talking-Head + Display-Hintergrund.
  4. NICHT mehr Code-zuerst arbeiten. Erst Cut-Liste als JSON, Marvin Review, dann Remotion-Composition.
  5. NICHT alles auf einmal implementieren. Phase fuer Phase, Marvin pickt ab.

Source-of-Truth-Files (alles vorhanden)

  • Roter Faden + Hook + Pickup-Saetze: 01-faden
  • Block 1 Sezier-Tabelle: 02-schnittplan-block1
  • Pickup-Liste: 03-pickup-liste
  • Source-Inventar: 04-source-inventar
  • Block 2+3 Sezier-Tabelle: 05-schnittplan-block2
  • Aktuelle Composition + Trim-Werte: 06-composition
  • Polish-Plan (alt, ueberholt durch dieses Doc): 08-polish-plan
  • Silence-Map: silence-map-0042.json
  • Filler-Map: filler-map-0042.json
  • Whisper-Transkripte: ~/source/youtube/transcripts/ (0034.{txt,srt,json}, 0042.{txt,srt,json})
  • Footage: ~/source/youtube/footage/raw/{0034,0042}.MP4 + Proxies in agent-agentur/remotion/public/footage-proxies/
  • Display-Recording: agent-agentur/remotion/public/screenstudio/0042-display.mp4
  • Brand: brand.md + agentic-ventures-website/DESIGN.md (alpha v, neuer)

Recherche-Quellen aus dieser Session (zum Vertiefen)

YouTube-Editing-Standards:

AI-Workflow-Tools:

Remotion-Skills:

  • Remotion Agent Skills Guide 2026
  • /remotion-dev/skills (Context7) — TikTok-Captions, Silence-Detection, Trim-Patterns
  • @remotion/captions Doku — createTikTokStyleCaptions mit Word-Highlight

Eroeffnungssatz fuer die naechste Session

Lies intern/projekte/vlog-mai-2026/ressourcen/09-reset-prompt-naechste-session.md und folge dem Plan. Phase A zuerst — bau eine Audio-Cut-Liste auf Word-Level aus 0042.json. Marvin reviewt Wiederholungs-Bucket und Drift-Bucket vor Phase B. Constraints lesen und einhalten.