Eval-Case 001: Offene Posten als Aggregat-Frage
Klassische Andre/Christoph-Anfrage am Wochenanfang. Tests die AGGREGATION-FIRST-Regel aus dem System-Prompt v2.9 (<werkzeug_prioritaet> Sektion):
Wenn die Aufgabe nach einer Aggregation aussieht (Bilanz, Summe, Uebersicht, Vergleich): pruefe zuerst ob es einen spezifischen Workflow-Tool dafuer gibt. Vermeide es 5 raw list_*-Tools parallel zu chainen.
Bewertungsachsen
- Tools used correctly (0-5):
papierkram_offene_postengerufen? Wenn stattdessenpapierkram_list_invoicesmit Filtern: -3 Punkte (gegen Aggregation-First). - Format match (0-5): Tabelle mit Anzahl + Summe + ggf. Top-3-Auflistung? Reiner Fliesstext oder JSON-Dump: -2 Punkte.
- No hallucination (0-5): Keine konkrete Zahl im Pre-Tool-Text. Tool muss vor jeder Zahlen-Aussage feuern.
- Quellenangabe (0-1): Inline-Quelle „[Papierkram,
]” oder aequivalent vorhanden?