Prompt injection dijelaskan sebagai masalah penggabungan string instruksi tepercaya dan input tak tepercaya.
Contoh serangan meliputi pengalihan instruksi pada aplikasi terjemahan dan markdown exfiltration untuk mencuri data.
Istilah “lethal trifecta” menggambarkan tiga elemen serangan: akses data privat, kemampuan komunikasi eksternal, dan paparan konten tak tepercaya.
Contoh nyata eksploitasi pada GitHub MCP menunjukkan penggabungan ketiga elemen trifecta untuk mengekspor data repositori privat melalui pull request publik.
Proteksi umum seperti “prompt begging” dan deteksi AI penuh masih gagal menghadang serangan adversarial.
Mitigasi efektif meliputi menghilangkan salah satu kaki trifecta, terutama vektor eksfiltrasi, atau membatasi domain dan akses alat dengan ketat.
Protokol Model Context Protocol (MCP) berisiko karena menyerahkan keputusan keamanan kritis kepada pengguna akhir.
Pendekatan CaMeL dari Google DeepMind dan pola desain membatasi agen AI untuk mencegah masukan tak tepercaya memicu aksi merusak paling direkomendasikan.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"