AbsenceBench: Modelos no detectan ausencias de texto

AbsenceBench evalúa la capacidad de los modelos de lenguaje para identificar información deliberadamente eliminada en tres dominios: secuencias numéricas, poesía y solicitudes de extracción de GitHub.

Modelos de última generación como Claude-3.7-Sonnet logran únicamente un 69,6% de F1 con contextos de alrededor de 5.000 tokens.

Los mecanismos de atención de los Transformers tienen dificultad para detectar “vacíos” porque las ausencias no corresponden a claves concretas a las que atender.

Existe un contraste marcado entre tareas de recuperación de información donde los LLM son superhumanos (NIAH) y tareas de detección de ausencias donde fallan sorprendentemente.

El código y los datos de AbsenceBench están disponibles públicamente en GitHub para facilitar su réplica y análisis.

Subscribe to Similar Stories

Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"

No Sign-In needed. One-Click Subscribe.

•

🇪🇸 Hacker News Espanyol•June 21, 2025 at 11:14 AM