AbsenceBench: модели не замечают пропущенную информацию

1

Представлен бенчмарк AbsenceBench для проверки обнаружения удалённой информации

2

Задачи охватывают числовые последовательности, поэзию и pull-реквесты GitHub

3

Лучшие LLM, включая Claude-3.7-Sonnet, достигают лишь ~69.6% F1 при контексте в 5 000 токенов

4

Transformer-внимание плохо реагирует на «пробелы» в документах, так как отсутствующая информация не имеет ключей внимания

5

Демонстрируется контраст между выдающимся поиском «иголки в стоге сена» и неудачами при выявлении пропусков