Penulis menunjukkan bahwa supervised fine-tuning (SFT) pada data terkurasi dapat dipandang sebagai memaksimalkan batas bawah dari objektif reinforcement learning dalam setting reward jarang.
Diperkenalkan varian importance weighted SFT (iw-SFT) yang mengoptimalkan batas lebih ketat sehingga perilakunya lebih dekat ke RL dan berpotensi meningkatkan performa.
iw-SFT sederhana untuk diimplementasikan dan dapat diperluas ke skenario data yang diberi skor kualitas.
Eksperimen menunjukkan iw-SFT kompetitif dengan algoritma RL canggih, baik untuk model bahasa besar maupun kebijakan kontrol kontinu.
Contoh capaian: iw-SFT meraih skor 66,7% pada dataset AIME 2024.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"