Proses kurasi aktif menggunakan model awal dan clustering untuk memilih contoh data paling membingungkan dan informatif.
Metode ini berhasil mengurangi kebutuhan data pelatihan hingga 10.000 kali lipat dengan hanya 250–450 contoh berlabel ahli.
Model yang dilatih dengan data terkurasi mencapai peningkatan keselarasan model-manusia hingga 65%.
Kualitas label diukur menggunakan Cohen’s Kappa, di mana nilai di atas 0,8 diperlukan untuk mengungguli data crowdsourced.
Metode ini sangat berguna untuk domain dengan perubahan cepat seperti keamanan iklan.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"