Masalah Validitas Benchmark Agen AI

Banyak benchmark agen AI saat ini tidak andal karena kesalahan pada simulator atau evaluasi hasil.

Terdapat dua kriteria validitas utama: task validity dan outcome validity.

Sebanyak 7 dari 10 benchmark memiliki shortcut atau tugas yang mustahil.

Sebanyak 7 dari 10 benchmark gagal memvalidasi hasil evaluasi dengan benar.

Sebanyak 8 dari 10 benchmark tidak mengungkapkan masalah yang diketahui.

ABC adalah checklist 43 item untuk meningkatkan validitas benchmark agen AI.

Contoh masalah spesifik ditemukan pada SWE-bench, KernelBench, τ-bench, WebArena, OSWorld, dan SWE-Lancer.

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.

•