Το AbsenceBench αξιολογεί την ικανότητα μοντέλων γλώσσας να εντοπίζουν σκόπιμα αφαιρεμένες πληροφορίες σε αριθμητικές ακολουθίες, ποίηση και pull requests στο GitHub
Ακόμα και προηγμένα μοντέλα όπως το Claude-3.7-Sonnet φτάνουν μόλις 69.6% F1-score σε μέσο μήκος κειμένου 5.000 tokens
Οι μηχανισμοί προσοχής των Transformer δεν μπορούν εύκολα να ανιχνεύσουν «κενά» σε ένα έγγραφο επειδή δεν υπάρχουν ως ενεργά κλειδιά προσοχής
Υπάρχει στενή αντίθεση μεταξύ εργασιών όπου τα μοντέλα είναι υπεράνθρωπα (Needle in a Haystack) και αυτών όπου αποτυγχάνουν απροσδόκητα (AbsenceBench)
Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"