Einführung von AbsenceBench zur Bewertung, ob LLMs gezielt entfernte Informationen in Dokumenten erkennen können.
Drei Domänen: numerische Sequenzen, Poesie und GitHub Pull Requests werden auf fehlende Teile untersucht.
Modelle erhalten die Original- und die bearbeitete Version und sollen entfernte Abschnitte identifizieren.
Selbst Spitzenmodell Claude-3.7-Sonnet erreicht nur 69,6 % F1-Score bei durchschnittlich 5 000 Tokens Kontextlänge.
Grundproblem: Transformer-Aufmerksamkeitsmechanismen können Lücken nicht direkt adressieren, da diese keinen zugehörigen Schlüssel haben.
AbsenceBench zeigt die Diskrepanz zwischen Modellen, die superhuman im Suchen (NIAH) sind, und ihrer Schwäche im Erkennen von Auslassungen.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"