AbsenceBench를 통해 수치 시퀀스, 시(poetry), GitHub PR 등 세 도메인에서 의도적으로 제거된 정보를 식별하는 과제를 제시
최첨단 모델(Claude-3.7-Sonnet)이 약 5K 토큰 문맥에서 69.6% F1 점수로 낮은 성능을 기록
Transformer 어텐션 메커니즘의 한계: 문서의 '빈 위치'는 특정 키로 매핑되지 않아 탐지가 어려움
모델이 NIAH 과제에서는 탁월한 성능을 보이나 누락 정보 탐지 과제에서는 급격히 성능이 저하됨
Get notified when new stories are published for "🇰🇷 Hacker News 한국어"