AbsenceBench: LLM non rilevano informazioni mancanti

AbsenceBench valuta la capacità degli LLM di individuare parti di testo rimosse in tre domini: sequenze numeriche, poesia e pull request su GitHub

I modelli eccellono nel recupero di informazioni inaspettate (test NIAH), ma faticano a riconoscere omissioni esplicite

Claude-3.7-Sonnet, tra i migliori, raggiunge solo un F1 score del 69,6% su contesti di circa 5.000 token

La difficoltà deriva dal meccanismo di attenzione dei Transformer, che non individua facilmente le “assenze” perché non corrispondono a chiavi nel contesto

AbsenceBench evidenzia come compiti analoghi possano risultare superumani o fallire improvvisamente a causa di peculiarità architetturali

Subscribe to Similar Stories

Get notified when new stories are published for "🇮🇹 Hacker News Italiano"

No Sign-In needed. One-Click Subscribe.

•

🇮🇹 Hacker News Italiano•June 21, 2025 at 11:14 AM