RL untuk LLM adalah ekstensi sederhana dari Supervised Finetuning dengan menambahkan contoh negatif dan KL Divergence.
Supervised Finetuning melibatkan contoh positif, pelatihan offline atau online, serta peningkatan probabilitas respons melalui gradient descent.
Saat contoh negatif diperkenalkan, SFT berubah menjadi Reinforcement Learning.
Metode populer seperti DPO dan GRPO bekerja dengan pasangan atau grup respons untuk mengatur skala loss.
Pelatihan offline memudahkan pembuatan dataset, sedangkan online memungkinkan model belajar dari outputnya sendiri dalam umpan balik berkelanjutan.
RLHF sering disalahpahami sebagai hanya untuk keselamatan atau penyesuaian preferensi, padahal RL merupakan fondasi pembuatan LLM berguna.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"