Diperkenalkannya AbsenceBench untuk menguji kemampuan LLM mendeteksi informasi yang sengaja dihilangkan dalam tiga domain: urutan numerik, puisi, dan pull request GitHub.
Model seperti Claude-3.7-Sonnet hanya mencapai skor F1 69,6% pada tugas ini dengan konteks rata-rata 5.000 token, menunjukkan performa rendah.
Kegagalan model terkait keterbatasan mekanisme atensi Transformer yang sulit memproses ‘celah’ karena absensi tidak memiliki representasi kunci yang bisa dihadiri.
Menunjukkan kontras antara tugas di mana model LLM unggul (NIAH) dan tugas deteksi informasi hilang di mana model justru mengalami kegagalan tak terduga.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"