Reset-Prompt fuer naechste Session

Marvin’s Befund nach 6 Phasen Iteration: „Sieht gar nicht gut aus. Scheiß cuts, viel zu schnell und abgehackt. Overlays passen nicht. Sticker sieht scheisse aus.” Diese Session muss alles auf YouTube-Profi-Niveau heben.

Was schief gelaufen ist (ehrliche Diagnose)

Schnitt-Pacing total daneben. Sub-Cuts haben Duration 42-63 Sek. Profi-YouTube macht 3-7 Sek pro Shot bei Talking-Vlog (AIR Media-Tech, Indirap). Ich hab einen Talking-Head 50 Sek lang stehen lassen — klassischer Drop-Spot.
Cuts cutten an falschen Stellen. Profi-Regel: „Cut on motion” — bei Bewegung schneiden, nicht im Stillstand. Ich cutte zwischen Sub-Cuts auf willkuerlichen Audio-Boundaries.
Keine J-Cuts / L-Cuts. Audio bricht mit Video-Schnitt ab → wirkt abgehackt. Profi: Audio des naechsten Clips beginnt vor dem Bildwechsel (J-Cut) oder Audio des aktuellen laeuft nach Bildwechsel weiter (L-Cut).
Overlays kollidieren mit Hintergrund. Theme-Migration: text=#0A0A0A (fast schwarz). Whiteboard-Display in 0042 ist gruen-ish. Schwarz auf Forest-Green = unleserlich. Ich haette Kontrast pruefen muessen.
„Immer noch 0 €“-Stamp war ungelernt. Solid-Border + Rotation + Forest-Green-on-White = looks like 2008-PowerPoint-Stempel. Profi-YouTube macht das mit subtilen Lower-Third-Inserts oder TikTok-Style-Caption-Animationen, nicht mit Plumpen Stempeln.
Captions fehlen. TikTok-Style-Captions mit Word-Highlight (Highlight-Color wechselt pro gesprochenes Wort) sind 2026-Standard. Wir haben Word-Level-WhisperX-Daten (0034.json + 0042.json) — nicht genutzt.
B-Roll ist Placeholder-Gradient. AtmosphereInterludes sind nur warmer Hintergrund. Profi macht echte B-Roll-Cutaways alle 60-90 Sek als Pattern-Interrupt.
Keine Descript-Logik fuer Audio-Cleanup. Wir haben Filler + Silence Maps generiert (silence-map-0042.json, filler-map-0042.json), aber sie nicht angewandt. Descript-Pattern: Audio wird auf Word-Level-Basis gecuttet, jeder Cut ist nahtlos.

Was 2026 YouTube-Profis machen (Recherche)

Schnitt-Pacing:

Talking-Vlog: 3-7 Sek pro Shot, energetische Stellen 1-3 Sek
Erste 3-5 Sek = alles. Kein Logo, kein Intro vor dem Hook
B-Roll alle 60-90 Sek mindestens
Cut on motion (Geste, Augenbewegung, Koerperneigung)

Audio-Standards:

Audio > Visual. Schlechtes Audio = sofort ausgeschaltet
J-Cuts und L-Cuts fuer smooth Uebergaenge
Filler-Words raus auf Word-Level (Descript-Pattern)
Pausen >0.4s ueberlegen, ob raus

Captions:

TikTok-Style-Captions mit Word-Highlight sind Default
Highlight-Color hebt aktuell gesprochenes Wort
1-3 Woerter pro Page (combineTokensWithinMilliseconds: 1200)
Ohne Captions: 80% Mute-Watchers verlassen Video

Visual-Hierarchie:

Lower-Thirds (Position-bottom, klein, dezent) > Stempel
Subtile Animationen (Spring-Easing, opacity-fade) > harte Effekte
Ein Akzent pro Frame (Brand-Doc sagt’s eh)
Kontrast-Check: Text muss gegen Hintergrund-Farbe lesbar sein, nicht gegen Brand-Farbe

Hybrid-AI-Workflow (was Profis 2026 machen):

Descript fuer Audio-Cleanup auf Word-Level
OpusClip fuer automatische Highlight-Extraktion
CapCut AI fuer Captions
Wir replizieren das in Remotion mit @remotion/captions + Word-Level-Trims

Was die naechste Session machen muss

Phase A — Audio-First Cut (Descript-Pattern, ~60 Min)

Output: Eine Audio-Cut-Liste auf Word-Level-Basis. Jeder Cut ist einzelner Wort-Span (von WhisperX-Timestamp), keine 50-Sek-Bloecke.

0042.json + 0034.json (WhisperX Word-Level-Timestamps) als Source-of-Truth nehmen.
Filler-Words raus (vorhanden in filler-map-0042.json — 9 Hits, 6s).
Stille >0.6s raus (vorhanden in silence-map-0042.json — 71 Stellen, ~90s).
Wiederholungen raus — Wenn 2 aufeinanderfolgende Saetze sehr aehnlich sind (z.B. „kein Geld verdient. Ich habe bisher nichts verdient”), zweite Aussage rauscutten ODER bewusst behalten als Punchline (Marvin entscheidet).
Drift-Stellen raus — wo Marvin Pfeile zeichnet ohne Inhalt (im 0042-Transkript markiert).
Output: audio-cuts-0042.json mit [{startSec, endSec, text}]-Array — das sind die ZU BEHALTEN-Spans.

Brauche: Marvin reviewt erst Bucket „Wiederholungen” und „Drift-Stellen” weil subjektiv. Filler + Stille koennen blind raus.

Phase B — Composition aus Word-Level-Cuts neu aufbauen (~90 Min)

Output: vlog-mai-Composition wird komplett neu gebaut aus der Cut-Liste — viele kurze Sub-Cuts (30-150 Frames = 1-5 Sek), nicht 1500-Frame-Bloecke.

Cut-Liste als JSON parsen
Pro Cut-Span: <Sequence> mit <Video trimBefore trimAfter>
J-Cut-Pattern: Audio-Sequence startet 4-8 Frames vor Video-Sequence, ueberlappt fuer smooth-Anschluss
L-Cut-Pattern: Audio-Sequence endet 4-8 Frames nach Video-Sequence
Cut on motion: bei der Cut-Auswahl pruefen — wenn Talking-Head am Wort-Ende eine Geste macht, Cut dort. Sonst 4-8 Frames spaeter beim Movement.

Phase C — Captions (TikTok-Style, ~45 Min)

Output: Word-Level-Captions als Layer ueber dem ganzen Video.

npx remotion add @remotion/captions (falls nicht da)
WhisperX-Output (0034.json + 0042.json) zu Caption[] konvertieren
createTikTokStyleCaptions({captions, combineTokensWithinMilliseconds: 1200})
Style:
- Position: bottom-third, mittig, mit safe-margin
- Font: Inter Bold 60-70px
- Color: weiss mit dunklem Drop-Shadow oder Background-Capsule fuer Lesbarkeit auf jedem Hintergrund
- Highlight-Color (aktuelles Wort): Forest-Green #2D4A3E
- Animation: Word fade-in subtil, kein Shake/Pop
Brand-Konsistenz: Lora-Italic NICHT in Captions — Captions sind Sans-Only fuer Lesbarkeit. Forest-Green NUR als Word-Highlight.

Phase D — Visual-Hierarchie + Kontrast-Fix (~45 Min)

Output: Overlays, die auf JEDEM Hintergrund (Talking-Head, Display-Whiteboard, Atmosphere) lesbar sind.

Stamp komplett entfernen. Das ist tot.
Lower-Thirds statt Stempel. Position bottom-left (oder bottom-right, je nach Talking-Head-Pip). Stat-Block: kleiner Forest-Green-Akzent-Strich, Inter Display, Kicker darunter. Fade-in/fade-out per opacity.
„0 €“-Punchline neu designen — als unteres Drittel (Lower-Third), Stat-Block:
- Kleiner Forest-Green-Strich oben (24x2px)
- „0 €” als Display-Token (Inter 500, 96px, Ink-Color)
- Kicker darunter „Zwei Monate · all in”
- Beim zweiten Mal: Kicker switcht subtil zu „Immer noch null.” in Lora-Italic-Forest. Kein Stamp. Kein Bounce.
Kontrast-Pruefung pro Overlay: Wenn Talking-Head-Hintergrund weiss → Text Ink. Wenn Display-Hintergrund gruen-ish → Text weiss + Drop-Shadow oder Caption-Capsule.
Subtile Animationen: Spring-basiert, kein hartes Pop. Easing: motion.easeEditorial aus Theme.

Phase E — B-Roll-Cutaways (~30 Min, Placeholder bis Footage)

Output: Atmosphere-Interludes wirken wie B-Roll, nicht wie Hintergrund-Gradient.

Default: Vox-Style-Section-Marker waehrend Atmosphere — Section-Number, naechster-Block-Title, kein Gradient mehr (passt nicht zur neuen Brand)
Wenn Marvin echtes B-Roll filmt: AtmosphereInterlude akzeptiert videoSrc Prop, dann statt Section-Marker das Footage zeigen
Im Vlog-Mai mindestens 2 B-Roll-Stellen (zwischen Block 1/2 und 2/3)

Phase F — Studio-Iteration mit Marvin (open)

Marvin sieht das Resultat, gibt punktuelles Feedback. Iteration auf Sub-Cut-Ebene.

Phase G — Skill destillieren (~45 Min)

Output: agentic-ventures:vlog-cut als Skill in ~/.claude/plugins/.../.

Skill-Inhalt:

Trigger: „cutte vlog”, „make vlog”, „polish vlog”, „bau composition fuer vlog”
Knowledge:
- YouTube-2026-Pacing (3-7s/Shot, J/L-Cuts, Cut-on-motion)
- Descript-Pattern (Word-Level-Cuts via WhisperX)
- TikTok-Captions via @remotion/captions
- Brand-Tokens (Bone, Ink, Forest, Lora, Hairline) aus DESIGN.md
- Schnitt-Patterns (Hard Cut Default, Zoom-Punch 1.025, Cut+Overlay, Cutaway-Interlude)
- Standard-Filler-Liste deutsche Vlogs
- Workflow-Phasen A-F oben

Constraints — was die naechste Session NICHT machen darf

NICHT mehr Stempel / Stamps / Rotated-Border-Boxen designen. Lower-Thirds + Spring-Animationen.
NICHT Sub-Cuts > 10 Sek lassen. Wenn Talking-Head 30 Sek redet, splittet auf 5-7 Cuts mit J/L-Cuts oder B-Roll-Cutaway.
NICHT Text-Overlays bauen ohne Kontrast-Check gegen Talking-Head + Display-Hintergrund.
NICHT mehr Code-zuerst arbeiten. Erst Cut-Liste als JSON, Marvin Review, dann Remotion-Composition.
NICHT alles auf einmal implementieren. Phase fuer Phase, Marvin pickt ab.

Source-of-Truth-Files (alles vorhanden)

Roter Faden + Hook + Pickup-Saetze: 01-faden
Block 1 Sezier-Tabelle: 02-schnittplan-block1
Pickup-Liste: 03-pickup-liste
Source-Inventar: 04-source-inventar
Block 2+3 Sezier-Tabelle: 05-schnittplan-block2
Aktuelle Composition + Trim-Werte: 06-composition
Polish-Plan (alt, ueberholt durch dieses Doc): 08-polish-plan
Silence-Map: silence-map-0042.json
Filler-Map: filler-map-0042.json
Whisper-Transkripte: ~/source/youtube/transcripts/ (0034.{txt,srt,json}, 0042.{txt,srt,json})
Footage: ~/source/youtube/footage/raw/{0034,0042}.MP4 + Proxies in agent-agentur/remotion/public/footage-proxies/
Display-Recording: agent-agentur/remotion/public/screenstudio/0042-display.mp4
Brand: brand.md + agentic-ventures-website/DESIGN.md (alpha v, neuer)

Recherche-Quellen aus dieser Session (zum Vertiefen)

YouTube-Editing-Standards:

AI-Workflow-Tools:

Remotion-Skills:

Remotion Agent Skills Guide 2026
/remotion-dev/skills (Context7) — TikTok-Captions, Silence-Detection, Trim-Patterns
@remotion/captions Doku — createTikTokStyleCaptions mit Word-Highlight

Eroeffnungssatz fuer die naechste Session

Lies intern/projekte/vlog-mai-2026/ressourcen/09-reset-prompt-naechste-session.md und folge dem Plan. Phase A zuerst — bau eine Audio-Cut-Liste auf Word-Level aus 0042.json. Marvin reviewt Wiederholungs-Bucket und Drift-Bucket vor Phase B. Constraints lesen und einhalten.

Agentic Ventures Wiki

Explorer

Reset-Prompt fuer naechste Session — Vlog Mai retten