Sprogmodeller kan ikke genkende manglende information

1

Introduktion af AbsenceBench til at teste LLM’ers evne til at opdage bevidst fjernet information i nummeriske sekvenser, poesi og GitHub pull requests.

2

Selv førende modeller som Claude-3.7-Sonnet opnår kun 69,6 % F1-score med en gennemsnitlig kontekstdimension på 5 000 tokens.

3

Transformer-attention kan ikke effektivt fokusere på 'huller' i dokumenter, da manglende tokens ikke har tilknyttede nøglepositioner.

4

Der er en markant forskel mellem NIAH-opgaver, hvor modeller er supermenneskelige, og AbsenceBench, hvor de bryder sammen uventet.

Sprogmodeller kan ikke genkende manglende information

Subscribe to Similar Stories