LLM'ler uzun girdilerde beklenmedik bilgiyi hatırlamada başarılı ama eksik bilgiyi tespit edemiyor.
AbsenceBench, sayısal diziler, şiir ve GitHub çekme istekleri üzerinde eksik parça tespit kapasitesini ölçüyor.
En iyi model Claude-3.7-Sonnet bile yalnızca %69.6 F1 skoru elde ediyor.
Transformer dikkat mekanizmaları, dokümandaki boşlukları belirlemekte yetersiz kalıyor.
NIAH gibi süper-insan model başarılarına yakın görevlerle, boşluk tespiti gibi beklenmedik başarısızlık gösteren görevler arasındaki uçurumu ortaya koyuyor.
Get notified when new stories are published for "🇹🇷 Hacker News Türkçe"