Peneliti menemukan jutaan gambar berisi data pribadi seperti paspor, kartu kredit, akta lahir, foto wajah, dan résumé di dalam DataComp CommonPool, salah satu set data pelatihan AI terbesar di dunia.
Audit hanya pada 0,1% data memperkirakan ratusan juta gambar PII tersebar di keseluruhan set; CommonPool berisi 12,8 miliar pasangan gambar-teks hasil scraping web 2014-2022.
Filter yang dipasang kurator (misalnya blur wajah) tidak efektif; algoritma diperkirakan melewatkan 102 juta wajah dan tidak memeriksa string PII seperti email atau nomor jaminan sosial.
Set data telah diunduh lebih dari 2 juta kali dan dipakai model turun-aliran, sehingga risiko privasi menyebar luas, termasuk ke LAION-5B dan model generatif populer.
Pengguna web tidak pernah memberi persetujuan eksplisit agar dokumen pribadi mereka dipakai melatih AI; banyak unggahan terjadi sebelum teknologi semacam ini ada.
Upaya menghapus data sulit; meski file dihapus dari set data, model terlatih tetap menyimpan pola, dan hukum saat ini tidak mewajibkan retraining.
Definisi hukum “informasi tersedia publik” diperdebatkan; penelitian ini menantang asumsi bahwa data online otomatis bebas dipakai untuk apa pun.
Para penulis menyerukan komunitas ML agar meninjau ulang praktik scraping sembarangan dan mendorong kebijakan perlindungan data yang lebih kuat.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"