Reset-Prompt fuer naechste Session
Marvin’s Befund nach 6 Phasen Iteration: „Sieht gar nicht gut aus. Scheiß cuts, viel zu schnell und abgehackt. Overlays passen nicht. Sticker sieht scheisse aus.” Diese Session muss alles auf YouTube-Profi-Niveau heben.
Was schief gelaufen ist (ehrliche Diagnose)
-
Schnitt-Pacing total daneben. Sub-Cuts haben Duration 42-63 Sek. Profi-YouTube macht 3-7 Sek pro Shot bei Talking-Vlog (AIR Media-Tech, Indirap). Ich hab einen Talking-Head 50 Sek lang stehen lassen — klassischer Drop-Spot.
-
Cuts cutten an falschen Stellen. Profi-Regel: „Cut on motion” — bei Bewegung schneiden, nicht im Stillstand. Ich cutte zwischen Sub-Cuts auf willkuerlichen Audio-Boundaries.
-
Keine J-Cuts / L-Cuts. Audio bricht mit Video-Schnitt ab → wirkt abgehackt. Profi: Audio des naechsten Clips beginnt vor dem Bildwechsel (J-Cut) oder Audio des aktuellen laeuft nach Bildwechsel weiter (L-Cut).
-
Overlays kollidieren mit Hintergrund. Theme-Migration: text=
#0A0A0A(fast schwarz). Whiteboard-Display in 0042 ist gruen-ish. Schwarz auf Forest-Green = unleserlich. Ich haette Kontrast pruefen muessen. -
„Immer noch 0 €“-Stamp war ungelernt. Solid-Border + Rotation + Forest-Green-on-White = looks like 2008-PowerPoint-Stempel. Profi-YouTube macht das mit subtilen Lower-Third-Inserts oder TikTok-Style-Caption-Animationen, nicht mit Plumpen Stempeln.
-
Captions fehlen. TikTok-Style-Captions mit Word-Highlight (Highlight-Color wechselt pro gesprochenes Wort) sind 2026-Standard. Wir haben Word-Level-WhisperX-Daten (
0034.json+0042.json) — nicht genutzt. -
B-Roll ist Placeholder-Gradient. AtmosphereInterludes sind nur warmer Hintergrund. Profi macht echte B-Roll-Cutaways alle 60-90 Sek als Pattern-Interrupt.
-
Keine Descript-Logik fuer Audio-Cleanup. Wir haben Filler + Silence Maps generiert (
silence-map-0042.json,filler-map-0042.json), aber sie nicht angewandt. Descript-Pattern: Audio wird auf Word-Level-Basis gecuttet, jeder Cut ist nahtlos.
Was 2026 YouTube-Profis machen (Recherche)
Schnitt-Pacing:
- Talking-Vlog: 3-7 Sek pro Shot, energetische Stellen 1-3 Sek
- Erste 3-5 Sek = alles. Kein Logo, kein Intro vor dem Hook
- B-Roll alle 60-90 Sek mindestens
- Cut on motion (Geste, Augenbewegung, Koerperneigung)
Audio-Standards:
- Audio > Visual. Schlechtes Audio = sofort ausgeschaltet
- J-Cuts und L-Cuts fuer smooth Uebergaenge
- Filler-Words raus auf Word-Level (Descript-Pattern)
- Pausen >0.4s ueberlegen, ob raus
Captions:
- TikTok-Style-Captions mit Word-Highlight sind Default
- Highlight-Color hebt aktuell gesprochenes Wort
- 1-3 Woerter pro Page (
combineTokensWithinMilliseconds: 1200) - Ohne Captions: 80% Mute-Watchers verlassen Video
Visual-Hierarchie:
- Lower-Thirds (Position-bottom, klein, dezent) > Stempel
- Subtile Animationen (Spring-Easing, opacity-fade) > harte Effekte
- Ein Akzent pro Frame (Brand-Doc sagt’s eh)
- Kontrast-Check: Text muss gegen Hintergrund-Farbe lesbar sein, nicht gegen Brand-Farbe
Hybrid-AI-Workflow (was Profis 2026 machen):
- Descript fuer Audio-Cleanup auf Word-Level
- OpusClip fuer automatische Highlight-Extraktion
- CapCut AI fuer Captions
- Wir replizieren das in Remotion mit
@remotion/captions+ Word-Level-Trims
Was die naechste Session machen muss
Phase A — Audio-First Cut (Descript-Pattern, ~60 Min)
Output: Eine Audio-Cut-Liste auf Word-Level-Basis. Jeder Cut ist einzelner Wort-Span (von WhisperX-Timestamp), keine 50-Sek-Bloecke.
- 0042.json + 0034.json (WhisperX Word-Level-Timestamps) als Source-of-Truth nehmen.
- Filler-Words raus (vorhanden in
filler-map-0042.json— 9 Hits, 6s). - Stille >0.6s raus (vorhanden in
silence-map-0042.json— 71 Stellen, ~90s). - Wiederholungen raus — Wenn 2 aufeinanderfolgende Saetze sehr aehnlich sind (z.B. „kein Geld verdient. Ich habe bisher nichts verdient”), zweite Aussage rauscutten ODER bewusst behalten als Punchline (Marvin entscheidet).
- Drift-Stellen raus — wo Marvin Pfeile zeichnet ohne Inhalt (im 0042-Transkript markiert).
- Output:
audio-cuts-0042.jsonmit[{startSec, endSec, text}]-Array — das sind die ZU BEHALTEN-Spans.
Brauche: Marvin reviewt erst Bucket „Wiederholungen” und „Drift-Stellen” weil subjektiv. Filler + Stille koennen blind raus.
Phase B — Composition aus Word-Level-Cuts neu aufbauen (~90 Min)
Output: vlog-mai-Composition wird komplett neu gebaut aus der Cut-Liste — viele kurze Sub-Cuts (30-150 Frames = 1-5 Sek), nicht 1500-Frame-Bloecke.
- Cut-Liste als JSON parsen
- Pro Cut-Span:
<Sequence>mit<Video trimBefore trimAfter> - J-Cut-Pattern: Audio-Sequence startet 4-8 Frames vor Video-Sequence, ueberlappt fuer smooth-Anschluss
- L-Cut-Pattern: Audio-Sequence endet 4-8 Frames nach Video-Sequence
- Cut on motion: bei der Cut-Auswahl pruefen — wenn Talking-Head am Wort-Ende eine Geste macht, Cut dort. Sonst 4-8 Frames spaeter beim Movement.
Phase C — Captions (TikTok-Style, ~45 Min)
Output: Word-Level-Captions als Layer ueber dem ganzen Video.
npx remotion add @remotion/captions(falls nicht da)- WhisperX-Output (0034.json + 0042.json) zu
Caption[]konvertieren createTikTokStyleCaptions({captions, combineTokensWithinMilliseconds: 1200})- Style:
- Position: bottom-third, mittig, mit safe-margin
- Font: Inter Bold 60-70px
- Color: weiss mit dunklem Drop-Shadow oder Background-Capsule fuer Lesbarkeit auf jedem Hintergrund
- Highlight-Color (aktuelles Wort): Forest-Green
#2D4A3E - Animation: Word fade-in subtil, kein Shake/Pop
- Brand-Konsistenz: Lora-Italic NICHT in Captions — Captions sind Sans-Only fuer Lesbarkeit. Forest-Green NUR als Word-Highlight.
Phase D — Visual-Hierarchie + Kontrast-Fix (~45 Min)
Output: Overlays, die auf JEDEM Hintergrund (Talking-Head, Display-Whiteboard, Atmosphere) lesbar sind.
- Stamp komplett entfernen. Das ist tot.
- Lower-Thirds statt Stempel. Position bottom-left (oder bottom-right, je nach Talking-Head-Pip). Stat-Block: kleiner Forest-Green-Akzent-Strich, Inter Display, Kicker darunter. Fade-in/fade-out per opacity.
- „0 €“-Punchline neu designen — als unteres Drittel (Lower-Third), Stat-Block:
- Kleiner Forest-Green-Strich oben (24x2px)
- „0 €” als Display-Token (Inter 500, 96px, Ink-Color)
- Kicker darunter „Zwei Monate · all in”
- Beim zweiten Mal: Kicker switcht subtil zu „Immer noch null.” in Lora-Italic-Forest. Kein Stamp. Kein Bounce.
- Kontrast-Pruefung pro Overlay: Wenn Talking-Head-Hintergrund weiss → Text Ink. Wenn Display-Hintergrund gruen-ish → Text weiss + Drop-Shadow oder Caption-Capsule.
- Subtile Animationen: Spring-basiert, kein hartes Pop. Easing:
motion.easeEditorialaus Theme.
Phase E — B-Roll-Cutaways (~30 Min, Placeholder bis Footage)
Output: Atmosphere-Interludes wirken wie B-Roll, nicht wie Hintergrund-Gradient.
- Default: Vox-Style-Section-Marker waehrend Atmosphere — Section-Number, naechster-Block-Title, kein Gradient mehr (passt nicht zur neuen Brand)
- Wenn Marvin echtes B-Roll filmt: AtmosphereInterlude akzeptiert
videoSrcProp, dann statt Section-Marker das Footage zeigen - Im Vlog-Mai mindestens 2 B-Roll-Stellen (zwischen Block 1/2 und 2/3)
Phase F — Studio-Iteration mit Marvin (open)
Marvin sieht das Resultat, gibt punktuelles Feedback. Iteration auf Sub-Cut-Ebene.
Phase G — Skill destillieren (~45 Min)
Output: agentic-ventures:vlog-cut als Skill in ~/.claude/plugins/.../.
Skill-Inhalt:
- Trigger: „cutte vlog”, „make vlog”, „polish vlog”, „bau composition fuer vlog”
- Knowledge:
- YouTube-2026-Pacing (3-7s/Shot, J/L-Cuts, Cut-on-motion)
- Descript-Pattern (Word-Level-Cuts via WhisperX)
- TikTok-Captions via
@remotion/captions - Brand-Tokens (Bone, Ink, Forest, Lora, Hairline) aus DESIGN.md
- Schnitt-Patterns (Hard Cut Default, Zoom-Punch 1.025, Cut+Overlay, Cutaway-Interlude)
- Standard-Filler-Liste deutsche Vlogs
- Workflow-Phasen A-F oben
Constraints — was die naechste Session NICHT machen darf
- NICHT mehr Stempel / Stamps / Rotated-Border-Boxen designen. Lower-Thirds + Spring-Animationen.
- NICHT Sub-Cuts > 10 Sek lassen. Wenn Talking-Head 30 Sek redet, splittet auf 5-7 Cuts mit J/L-Cuts oder B-Roll-Cutaway.
- NICHT Text-Overlays bauen ohne Kontrast-Check gegen Talking-Head + Display-Hintergrund.
- NICHT mehr Code-zuerst arbeiten. Erst Cut-Liste als JSON, Marvin Review, dann Remotion-Composition.
- NICHT alles auf einmal implementieren. Phase fuer Phase, Marvin pickt ab.
Source-of-Truth-Files (alles vorhanden)
- Roter Faden + Hook + Pickup-Saetze: 01-faden
- Block 1 Sezier-Tabelle: 02-schnittplan-block1
- Pickup-Liste: 03-pickup-liste
- Source-Inventar: 04-source-inventar
- Block 2+3 Sezier-Tabelle: 05-schnittplan-block2
- Aktuelle Composition + Trim-Werte: 06-composition
- Polish-Plan (alt, ueberholt durch dieses Doc): 08-polish-plan
- Silence-Map:
silence-map-0042.json - Filler-Map:
filler-map-0042.json - Whisper-Transkripte:
~/source/youtube/transcripts/(0034.{txt,srt,json}, 0042.{txt,srt,json}) - Footage:
~/source/youtube/footage/raw/{0034,0042}.MP4+ Proxies inagent-agentur/remotion/public/footage-proxies/ - Display-Recording:
agent-agentur/remotion/public/screenstudio/0042-display.mp4 - Brand: brand.md +
agentic-ventures-website/DESIGN.md(alpha v, neuer)
Recherche-Quellen aus dieser Session (zum Vertiefen)
YouTube-Editing-Standards:
- Advanced Retention Editing — AIR Media-Tech
- 11 Video Editing Techniques — Indirap
- Vlog Video Editing Guide — Inside Editors
AI-Workflow-Tools:
Remotion-Skills:
- Remotion Agent Skills Guide 2026
/remotion-dev/skills(Context7) — TikTok-Captions, Silence-Detection, Trim-Patterns@remotion/captionsDoku —createTikTokStyleCaptionsmit Word-Highlight
Eroeffnungssatz fuer die naechste Session
Lies
intern/projekte/vlog-mai-2026/ressourcen/09-reset-prompt-naechste-session.mdund folge dem Plan. Phase A zuerst — bau eine Audio-Cut-Liste auf Word-Level aus 0042.json. Marvin reviewt Wiederholungs-Bucket und Drift-Bucket vor Phase B. Constraints lesen und einhalten.