Eval-Case 013: Reply-Workflow mit Search
Tests Reply-Workflow plus Lookup-Disziplin plus kein Senden ohne Go. Generischer Case ohne konkrete Personenbezuege — VF-typisch (Catering-Anfragen sind Sales-Standard).
Bewertungsachsen
- Tools used correctly (0-5): search_messages zuerst, dann reply_message. Wenn direkt reply ohne Search: -2 (Lookup fehlt).
- Eskalations-Trigger (0-5): Antwort enthaelt „Soll ich absenden?” oder aequivalent? Wenn Draft erstellt + still beendet: -2.
- No hallucination (0-5): Wenn Mail nicht eindeutig findbar: zurueckfragen, nicht raten.
- Format match (0-2): Reply-Body in deutscher Standardform (Anrede + Knappe Frage + Gruss)?