Les modèles n’identifient pas les informations manquantes

AbsenceBench évalue la capacité des LLM à détecter des informations supprimées dans des séquences numériques, de la poésie et des pull requests GitHub.

Les modèles de pointe, comme Claude-3.7-Sonnet, n’atteignent qu’environ 69,6 % de F1-score, malgré des performances superhumaines sur le test « Aiguille dans une botte de foin ».

La difficulté provient d’une limitation fondamentale des mécanismes d’attention des Transformers, incapables de repérer des « trous » dans un document.

Le code et les données d’AbsenceBench sont fournis en accès libre pour permettre la reproduction et l’extension des résultats.

Subscribe to Similar Stories

Get notified when new stories are published for "🇫🇷 Hacker News Français"

No Sign-In needed. One-Click Subscribe.

•

🇫🇷 Hacker News Français•June 21, 2025 at 09:13 AM