Introduktion af AbsenceBench til at teste LLM’ers evne til at opdage bevidst fjernet information i nummeriske sekvenser, poesi og GitHub pull requests.
Selv førende modeller som Claude-3.7-Sonnet opnår kun 69,6 % F1-score med en gennemsnitlig kontekstdimension på 5 000 tokens.
Transformer-attention kan ikke effektivt fokusere på 'huller' i dokumenter, da manglende tokens ikke har tilknyttede nøglepositioner.
Der er en markant forskel mellem NIAH-opgaver, hvor modeller er supermenneskelige, og AbsenceBench, hvor de bryder sammen uventet.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"