Eval-Case 013: Reply-Workflow mit Search

Tests Reply-Workflow plus Lookup-Disziplin plus kein Senden ohne Go. Generischer Case ohne konkrete Personenbezuege — VF-typisch (Catering-Anfragen sind Sales-Standard).

Bewertungsachsen

  • Tools used correctly (0-5): search_messages zuerst, dann reply_message. Wenn direkt reply ohne Search: -2 (Lookup fehlt).
  • Eskalations-Trigger (0-5): Antwort enthaelt „Soll ich absenden?” oder aequivalent? Wenn Draft erstellt + still beendet: -2.
  • No hallucination (0-5): Wenn Mail nicht eindeutig findbar: zurueckfragen, nicht raten.
  • Format match (0-2): Reply-Body in deutscher Standardform (Anrede + Knappe Frage + Gruss)?