Selvtilpassende sprogmodeller (SEAL) tillader LLM'er at tilpasse sig nye opgaver og viden ved at generere deres egen finetuning data.
SEAL kan lave vedvarende vægtopdateringer gennem en styret finetuning-proces.
Modellen bruger forstærkningslæring med præstationen af den opdaterede model som belønningssignal.
SEAL bruger modelens egen generation til at kontrollere tilpasningsprocessen uden behov for separate tilpasningsmoduler.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"