OpenAI e i malintesi sul RL

1

RL per i LLM è un’estensione semplice del fine-tuning supervisionato con l’aggiunta di esempi negativi e perdita di divergenza KL.

2

Il fine-tuning supervisionato (SFT) è in realtà un sottoinsieme del RL e diventa RL non appena si usano esempi negativi.

3

Le varianti DPO e GRPO implementano RL usando coppie o gruppi di risposte con pesi scalati per premiare o penalizzare in modo diverso ogni risposta.

4

L’addestramento online permette un feedback loop benefico migliorando le prestazioni, ma è più complesso da realizzare rispetto all’addestramento offline.

5

Il termine “Policy” indica il modello in addestramento e “Judge” colui che valuta le risposte (umano o AI).

6

OpenAI ha diffuso l’idea errata che RLHF serva solo per la sicurezza o il tuning delle preferenze, mentre il RL è fondamentale per tutti i LLM di successo.

7

L’apprendimento dai propri output è quasi indispensabile perché il RL funzioni in modo efficace.

OpenAI e i malintesi sul RL

Subscribe to Similar Stories

OpenAI e i malintesi sul RL

Subscribe to Similar Stories