LLM’lerde Pekiştirmeli Öğrenme (RL), Denetimli İnce Ayarın (SFT) bir uzantısıdır ve tek özgün bileşeni negatif örneklerin kullanılmasıdır.
Geleneksel SFT, insan yazımı pozitif örneklere dayanırken reddetme örneklemesiyle modelin kendi yanıtları veri kümesine eklenebilir.
Veri kümesi çevrimdışı (offline) veya eğitime eş zamanlı (online) olarak oluşturulabilir; online eğitim model çıktıları üzerinden yararlı bir geri besleme döngüsü sağlar.
KL Diverjans kaybı, ince ayarlanan modelin önceden eğitilmiş modele fazla sapmasını önleyerek dengeli bir eğitim sunar.
DPO, her istem için bir pozitif ve bir negatif yanıt çiftiyle çalışırken, GRPO gruplar halinde yanıtları skaler ağırlıklarla değerlendirir.
Uzun eğitimlerde çevrimiçi yöntem performansı artırırken, Meta’nın iteratif çevrimdışı DPO yaklaşımı denge ve esneklik sağlar.
RLHF yalnızca güvenlik veya tercih ayarı için değil, işlevsel LLM’lerin temelini oluşturan kritik bir eğitim yöntemidir.
Get notified when new stories are published for "Hacker News 🇹🇷 Türkçe"