AbsenceBench: Modelos Não Identificam Omissões

Apresentação do AbsenceBench para avaliar LLMs na deteção de informações omitidas em sequências numéricas, poesia e pull requests.

Modelos de grande dimensão, como Claude-3.7-Sonnet, atingem apenas 69,6% de F1-score na identificação de lacunas.

Limitação fundamental: mecanismos de atenção dos Transformers não conseguem focar em “ausências” que não geram chaves específicas.

Demonstra a proximidade entre tarefas em que os modelos são superiores (localizar informação surpreendente) e tarefas em que falham inesperadamente (detetar omissões).

Subscribe to Similar Stories

Get notified when new stories are published for "🇵🇹 Hacker News Português"

No Sign-In needed. One-Click Subscribe.

•

🇵🇹 Hacker News Português•June 21, 2025 at 10:16 AM