AbsenceBench: Modellen Vinden Verwijderde Inhoud Niet

AbsenceBench test detectie van ontbrekende informatie in numerieke reeksen, poëzie en GitHub-pull requests

State-of-the-art modellen zoals Claude-3.7-Sonnet halen slechts ~69,6% F1-score bij gemiddeld 5K tokens context

Transformer-attentiemechanismen kunnen niet gemakkelijk 'gaps' in documenten opmerken omdat er geen specifieke keys zijn om op te letten

Benchmark illustreert contrast tussen superieure prestaties op aanwezigheidstaken en zwakte bij afwezigheidstaken

Get notified when new stories are published for "🇳🇱 Hacker News Dutch"

No Sign-In needed. One-Click Subscribe.

•

🇳🇱 Hacker News Dutch•June 21, 2025 at 09:18 AM

AbsenceBench test detectie van ontbrekende informatie in numerieke reeksen, poëzie en GitHub-pull requests

State-of-the-art modellen zoals Claude-3.7-Sonnet halen slechts ~69,6% F1-score bij gemiddeld 5K tokens context

Transformer-attentiemechanismen kunnen niet gemakkelijk 'gaps' in documenten opmerken omdat er geen specifieke keys zijn om op te letten

Benchmark illustreert contrast tussen superieure prestaties op aanwezigheidstaken en zwakte bij afwezigheidstaken

Get notified when new stories are published for "🇳🇱 Hacker News Dutch"

No Sign-In needed. One-Click Subscribe.