AbsenceBench valuta la capacità degli LLM di individuare parti di testo rimosse in tre domini: sequenze numeriche, poesia e pull request su GitHub
I modelli eccellono nel recupero di informazioni inaspettate (test NIAH), ma faticano a riconoscere omissioni esplicite
Claude-3.7-Sonnet, tra i migliori, raggiunge solo un F1 score del 69,6% su contesti di circa 5.000 token
La difficoltà deriva dal meccanismo di attenzione dei Transformer, che non individua facilmente le “assenze” perché non corrispondono a chiavi nel contesto
AbsenceBench evidenzia come compiti analoghi possano risultare superumani o fallire improvvisamente a causa di peculiarità architetturali
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"