RLHF er en enkel udvidelse af Supervised Finetuning ved at tilføje negative eksempler.
Supervised Finetuning er en delmængde af RL, og man kan vælge mellem online- eller offline-træning.
Negative eksempler og KL-divergens bruges til at styre modelens output under RL.
RL er fundamentet for at bygge nyttige LLM’er, ikke kun til sikkerhed eller præferencejustering.
Online træning på modellens egne output forbedrer ydeevnen ved længere træningsforløb.
Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"