AbsenceBench: Eksik Bilgiyi Bulmada Zorluk

LLM'ler uzun girdilerde beklenmedik bilgiyi hatırlamada başarılı ama eksik bilgiyi tespit edemiyor.

AbsenceBench, sayısal diziler, şiir ve GitHub çekme istekleri üzerinde eksik parça tespit kapasitesini ölçüyor.

En iyi model Claude-3.7-Sonnet bile yalnızca %69.6 F1 skoru elde ediyor.

Transformer dikkat mekanizmaları, dokümandaki boşlukları belirlemekte yetersiz kalıyor.

NIAH gibi süper-insan model başarılarına yakın görevlerle, boşluk tespiti gibi beklenmedik başarısızlık gösteren görevler arasındaki uçurumu ortaya koyuyor.

Subscribe to Similar Stories

Get notified when new stories are published for "🇹🇷 Hacker News Türkçe"

No Sign-In needed. One-Click Subscribe.

•

🇹🇷 Hacker News Türkçe•June 21, 2025 at 11:14 AM