Реинфорсмент-обучение (RL) — это простое расширение супервизированной донастройки (SFT).
Добавление отрицательных примеров и KL-дивергенции превращает SFT в полноценное RL.
Offline-обучение проще в реализации, а Online-обучение улучшает результаты за счёт использования выходов модели во время тренировки.
Алгоритмы DPO и GRPO масштабируют вклад положительных и отрицательных ответов для стабильного обучения.
Термины «Policy» и «Judge» обозначают модель и систему оценки ответов соответственно.
OpenAI создала впечатление, что RLHF нужен лишь для безопасности и предпочтений, тогда как RL является основой всех LLM.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"