Iw-SFT Tingkatkan Fine-Tuning LLM

Penulis menunjukkan bahwa supervised fine-tuning (SFT) pada data terkurasi dapat dipandang sebagai memaksimalkan batas bawah dari objektif reinforcement learning dalam setting reward jarang.

Diperkenalkan varian importance weighted SFT (iw-SFT) yang mengoptimalkan batas lebih ketat sehingga perilakunya lebih dekat ke RL dan berpotensi meningkatkan performa.

iw-SFT sederhana untuk diimplementasikan dan dapat diperluas ke skenario data yang diberi skor kualitas.

Eksperimen menunjukkan iw-SFT kompetitif dengan algoritma RL canggih, baik untuk model bahasa besar maupun kebijakan kontrol kontinu.

Contoh capaian: iw-SFT meraih skor 66,7% pada dataset AIME 2024.

Subscribe to Similar Stories

Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"

No Sign-In needed. One-Click Subscribe.

•

Berita Peretas 🇮🇩 Bahasa Indonesia•July 29, 2025 at 09:32 PM