Как OpenAI вводила в заблуждение о RLHF

1

Реинфорсмент-обучение (RL) — это простое расширение супервизированной донастройки (SFT).

2

Добавление отрицательных примеров и KL-дивергенции превращает SFT в полноценное RL.

3

Offline-обучение проще в реализации, а Online-обучение улучшает результаты за счёт использования выходов модели во время тренировки.

4

Алгоритмы DPO и GRPO масштабируют вклад положительных и отрицательных ответов для стабильного обучения.

5

Термины «Policy» и «Judge» обозначают модель и систему оценки ответов соответственно.

6

OpenAI создала впечатление, что RLHF нужен лишь для безопасности и предпочтений, тогда как RL является основой всех LLM.