AbsenceBench évalue la capacité des LLM à détecter des informations supprimées dans des séquences numériques, de la poésie et des pull requests GitHub.
Les modèles de pointe, comme Claude-3.7-Sonnet, n’atteignent qu’environ 69,6 % de F1-score, malgré des performances superhumaines sur le test « Aiguille dans une botte de foin ».
La difficulté provient d’une limitation fondamentale des mécanismes d’attention des Transformers, incapables de repérer des « trous » dans un document.
Le code et les données d’AbsenceBench sont fournis en accès libre pour permettre la reproduction et l’extension des résultats.
Get notified when new stories are published for "🇫🇷 Hacker News Français"