RL é uma extensão simples do Finetuning Supervisionado.
O Finetuning Supervisionado usa somente exemplos positivos e o RL introduz exemplos negativos.
A perda de divergência KL mantém o modelo próximo ao pré-treinado enquanto aprende.
Há dois métodos populares de RL para LLMs: DPO e GRPO.
Treino Offline é mais fácil de implementar mas pode gerar divergência em longas sessões.
Treino Online usa respostas do próprio modelo em tempo real para melhorar o desempenho.
RL é a base fundamental para construir LLMs úteis, não apenas para segurança ou ajuste de preferências.
Get notified when new stories are published for "Hacker News 🇵🇹 Português"