Apresentação do AbsenceBench para avaliar LLMs na deteção de informações omitidas em sequências numéricas, poesia e pull requests.
Modelos de grande dimensão, como Claude-3.7-Sonnet, atingem apenas 69,6% de F1-score na identificação de lacunas.
Limitação fundamental: mecanismos de atenção dos Transformers não conseguem focar em “ausências” que não geram chaves específicas.
Demonstra a proximidade entre tarefas em que os modelos são superiores (localizar informação surpreendente) e tarefas em que falham inesperadamente (detetar omissões).
Get notified when new stories are published for "🇵🇹 Hacker News Português"