Model AI dan agen generatif mudah diserang lewat prompt injection, mirip SQL injection pada database.
Filter keamanan (guardrails) pada AI sering bersifat lunak dan dapat dibypass dengan trik bahasa alami sederhana.
Banyak pengembang hanya menambahkan filter opsional tanpa menutup celah, sehingga AI tetap rentan terhadap serangan.
Peneliti berhasil memaksa AI customer-service agent mengirim data sensitif lewat email tanpa interaksi manusia.
Metode bypass guardrails termasuk menyamarkan perintah, misalnya menyebut 'apples' untuk mencari API keys, menunjukkan kelemahan filter berbasis kata kunci.
AI coding assistant memperluas attack surface, memunculkan kembali kerentanan klasik seperti RCE dan pencurian kredensial.
Disarankan menerapkan prinsip zero trust: asumsi AI rentan, sanitasi input, batasi akses, gunakan batasan keras, dan uji sistem sendiri sebelum dioperasikan.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"