AbsenceBench: Sprachmodelle erkennen fehlende Informationen nicht

1

Einführung von AbsenceBench zur Bewertung, ob LLMs gezielt entfernte Informationen in Dokumenten erkennen können.

2

Drei Domänen: numerische Sequenzen, Poesie und GitHub Pull Requests werden auf fehlende Teile untersucht.

3

Modelle erhalten die Original- und die bearbeitete Version und sollen entfernte Abschnitte identifizieren.

4

Selbst Spitzenmodell Claude-3.7-Sonnet erreicht nur 69,6 % F1-Score bei durchschnittlich 5 000 Tokens Kontextlänge.

5

Grundproblem: Transformer-Aufmerksamkeitsmechanismen können Lücken nicht direkt adressieren, da diese keinen zugehörigen Schlüssel haben.

6

AbsenceBench zeigt die Diskrepanz zwischen Modellen, die superhuman im Suchen (NIAH) sind, und ihrer Schwäche im Erkennen von Auslassungen.