Представлен бенчмарк AbsenceBench для проверки обнаружения удалённой информации
Задачи охватывают числовые последовательности, поэзию и pull-реквесты GitHub
Лучшие LLM, включая Claude-3.7-Sonnet, достигают лишь ~69.6% F1 при контексте в 5 000 токенов
Transformer-внимание плохо реагирует на «пробелы» в документах, так как отсутствующая информация не имеет ключей внимания
Демонстрируется контраст между выдающимся поиском «иголки в стоге сена» и неудачами при выявлении пропусков
Get notified when new stories are published for "🇷🇺 Hacker News Русский"