AbsenceBench evalúa la capacidad de los modelos de lenguaje para identificar información deliberadamente eliminada en tres dominios: secuencias numéricas, poesía y solicitudes de extracción de GitHub.
Modelos de última generación como Claude-3.7-Sonnet logran únicamente un 69,6% de F1 con contextos de alrededor de 5.000 tokens.
Los mecanismos de atención de los Transformers tienen dificultad para detectar “vacíos” porque las ausencias no corresponden a claves concretas a las que atender.
Existe un contraste marcado entre tareas de recuperación de información donde los LLM son superhumanos (NIAH) y tareas de detección de ausencias donde fallan sorprendentemente.
El código y los datos de AbsenceBench están disponibles públicamente en GitHub para facilitar su réplica y análisis.
Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"