AbsenceBench: LLM nie wykrywają braków

Wprowadzono AbsenceBench – benchmark oceniający zdolność modeli językowych do wykrywania celowo usuniętych fragmentów tekstu.

Testowane trzy różne typy danych: sekwencje liczb, poezja i pull requesty z GitHub.

Nawet czołowe modele (np. Claude-3.7-Sonnet) osiągają tylko około 69,6% w F1-score przy średnim kontekście 5 tys. tokenów.

Główną przyczyną słabych wyników jest ograniczenie uwagi transformera – braki informacji nie są reprezentowane jako tokeny, więc model ich „nie widzi”.

Subscribe to Similar Stories

Get notified when new stories are published for "🇵🇱 Hacker News Polski"

No Sign-In needed. One-Click Subscribe.

•

🇵🇱 Hacker News Polski•June 21, 2025 at 10:16 AM