Banyak benchmark agen AI saat ini tidak andal karena kesalahan pada simulator atau evaluasi hasil.
Terdapat dua kriteria validitas utama: task validity dan outcome validity.
Sebanyak 7 dari 10 benchmark memiliki shortcut atau tugas yang mustahil.
Sebanyak 7 dari 10 benchmark gagal memvalidasi hasil evaluasi dengan benar.
Sebanyak 8 dari 10 benchmark tidak mengungkapkan masalah yang diketahui.
ABC adalah checklist 43 item untuk meningkatkan validitas benchmark agen AI.
Contoh masalah spesifik ditemukan pada SWE-bench, KernelBench, τ-bench, WebArena, OSWorld, dan SWE-Lancer.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"