AbsenceBench: Τα Μοντέλα Δεν Εντοπίζουν Τι Λείπει

Το AbsenceBench αξιολογεί την ικανότητα μοντέλων γλώσσας να εντοπίζουν σκόπιμα αφαιρεμένες πληροφορίες σε αριθμητικές ακολουθίες, ποίηση και pull requests στο GitHub

Ακόμα και προηγμένα μοντέλα όπως το Claude-3.7-Sonnet φτάνουν μόλις 69.6% F1-score σε μέσο μήκος κειμένου 5.000 tokens

Οι μηχανισμοί προσοχής των Transformer δεν μπορούν εύκολα να ανιχνεύσουν «κενά» σε ένα έγγραφο επειδή δεν υπάρχουν ως ενεργά κλειδιά προσοχής

Υπάρχει στενή αντίθεση μεταξύ εργασιών όπου τα μοντέλα είναι υπεράνθρωπα (Needle in a Haystack) και αυτών όπου αποτυγχάνουν απροσδόκητα (AbsenceBench)

Subscribe to Similar Stories

Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"

No Sign-In needed. One-Click Subscribe.