RL per i LLM è un’estensione semplice del fine-tuning supervisionato con l’aggiunta di esempi negativi e perdita di divergenza KL.
Il fine-tuning supervisionato (SFT) è in realtà un sottoinsieme del RL e diventa RL non appena si usano esempi negativi.
Le varianti DPO e GRPO implementano RL usando coppie o gruppi di risposte con pesi scalati per premiare o penalizzare in modo diverso ogni risposta.
L’addestramento online permette un feedback loop benefico migliorando le prestazioni, ma è più complesso da realizzare rispetto all’addestramento offline.
Il termine “Policy” indica il modello in addestramento e “Judge” colui che valuta le risposte (umano o AI).
OpenAI ha diffuso l’idea errata che RLHF serva solo per la sicurezza o il tuning delle preferenze, mentre il RL è fondamentale per tutti i LLM di successo.
L’apprendimento dai propri output è quasi indispensabile perché il RL funzioni in modo efficace.
Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"