Vektor persona adalah pola aktivasi dalam jaringan syaraf model yang mengendalikan sifat karakter seperti kejahatan, kesopanan, atau halusinasi.
Metode ini secara otomatis dapat mengekstrak vektor persona untuk berbagai sifat hanya dari definisinya.
Aktivasi vektor persona dapat memantau pergeseran kepribadian model selama percakapan atau pelatihan.
Vektor persona dapat digunakan untuk mengurangi pergeseran sifat negatif setelah pelatihan meski berpotensi menurunkan kemampuan model.
Pendekatan pencegahan menambahkan vektor persona selama pelatihan dapat mencegah akuisisi sifat negatif tanpa merusak kinerja umum.
Dengan menganalisis aktivasi vektor persona pada data pelatihan, kita dapat menandai contoh yang berpotensi memunculkan sifat negatif.
Eksperimen pada Qwen 2.5-7B-Instruct dan Llama-3.1-8B-Instruct menunjukkan efektivitas teknik ini.
Vektor persona menjanjikan alat untuk memastikan model bahasa tetap selaras dengan nilai manusia.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"