Como a OpenAI Enganou Sobre o RLHF

RL é uma extensão simples do Finetuning Supervisionado.

O Finetuning Supervisionado usa somente exemplos positivos e o RL introduz exemplos negativos.

A perda de divergência KL mantém o modelo próximo ao pré-treinado enquanto aprende.

Há dois métodos populares de RL para LLMs: DPO e GRPO.

Treino Offline é mais fácil de implementar mas pode gerar divergência em longas sessões.

Treino Online usa respostas do próprio modelo em tempo real para melhorar o desempenho.

RL é a base fundamental para construir LLMs úteis, não apenas para segurança ou ajuste de preferências.

Get notified when new stories are published for "Hacker News 🇵🇹 Português"

No Sign-In needed. One-Click Subscribe.

•