RL은 기존의 감독형 미세조정(SFT)에 음성 예시와 KL 발산 손실을 추가한 확장입니다.
SFT는 RL의 부분집합으로, RL을 이해하려면 SFT 개념부터 시작해야 합니다.
RL의 핵심은 음성 예시를 활용하여 모델이 생성을 피해야 할 응답을 학습하는 것입니다.
KL 발산 손실을 적용하면 미세조정 과정에서 사전 학습 모델의 특성을 유지할 수 있습니다.
DPO와 GRPO는 대표적인 RL 기법으로, 긍정·부정 예시의 손실 스케일링 방식을 통해 학습 안정성을 높입니다.
오프라인(offline)과 온라인(online) 학습 방식을 적절히 조합하면 성능과 효율성을 모두 확보할 수 있습니다.
정책(policy)은 학습 중인 모델, 심판(judge)은 응답을 평가하는 주체를 가리키는 용어입니다.
RLHF는 단순히 안전성 향상뿐 아니라 모든 성공적인 LLM 학습의 핵심입니다.
Get notified when new stories are published for "heavy-ties-deny"