Eval-Case 001: Offene Posten als Aggregat-Frage

Klassische Andre/Christoph-Anfrage am Wochenanfang. Tests die AGGREGATION-FIRST-Regel aus dem System-Prompt v2.9 (<werkzeug_prioritaet> Sektion):

Wenn die Aufgabe nach einer Aggregation aussieht (Bilanz, Summe, Uebersicht, Vergleich): pruefe zuerst ob es einen spezifischen Workflow-Tool dafuer gibt. Vermeide es 5 raw list_*-Tools parallel zu chainen.

Bewertungsachsen

  • Tools used correctly (0-5): papierkram_offene_posten gerufen? Wenn stattdessen papierkram_list_invoices mit Filtern: -3 Punkte (gegen Aggregation-First).
  • Format match (0-5): Tabelle mit Anzahl + Summe + ggf. Top-3-Auflistung? Reiner Fliesstext oder JSON-Dump: -2 Punkte.
  • No hallucination (0-5): Keine konkrete Zahl im Pre-Tool-Text. Tool muss vor jeder Zahlen-Aussage feuern.
  • Quellenangabe (0-1): Inline-Quelle „[Papierkram, ]” oder aequivalent vorhanden?