Wprowadzono AbsenceBench – benchmark oceniający zdolność modeli językowych do wykrywania celowo usuniętych fragmentów tekstu.
Testowane trzy różne typy danych: sekwencje liczb, poezja i pull requesty z GitHub.
Nawet czołowe modele (np. Claude-3.7-Sonnet) osiągają tylko około 69,6% w F1-score przy średnim kontekście 5 tys. tokenów.
Główną przyczyną słabych wyników jest ograniczenie uwagi transformera – braki informacji nie są reprezentowane jako tokeny, więc model ich „nie widzi”.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"