AbsenceBench test detectie van ontbrekende informatie in numerieke reeksen, poëzie en GitHub-pull requests
State-of-the-art modellen zoals Claude-3.7-Sonnet halen slechts ~69,6% F1-score bij gemiddeld 5K tokens context
Transformer-attentiemechanismen kunnen niet gemakkelijk 'gaps' in documenten opmerken omdat er geen specifieke keys zijn om op te letten
Benchmark illustreert contrast tussen superieure prestaties op aanwezigheidstaken en zwakte bij afwezigheidstaken
Get notified when new stories are published for "🇳🇱 Hacker News Dutch"