Het aantal parameters van LLMs groeide van miljoenen (GPT-2) naar honderden miljarden (GPT-3) en zelfs triljoenen (Llama-4).
Trainingsdatasets namen toe van ongeveer 10 miljard tokens (WebText voor GPT-2) tot meer dan 14 triljard tokens voor recente MoE-modellen.
LLaMA-modellen (tot 65B) gebruikten voornamelijk boekenmateriaal en vormden een keerpunt in de beschikbaarheid van grote LLMs.
De opkomst van MoE-architecturen (Mixtral, DeepSeek, DBRX) maakte grote modellen toegankelijker door sparsiteit en expertoproepen.
Annealing en fijn afgestemde data verschoven basismodellen richting geoptimaliseerde assistentprestaties, wat de puur tekstvoortzetting beïnvloedt.
Er is onduidelijkheid over de vergelijkbaarheid tussen dichte en MoE-modellen en de validiteit van huidige benchmarks.
Toekomstige ontwikkelingen kunnen nieuwe architecturen (RWKV, byte-latent) en synthetische trainingsdata omvatten.
Get notified when new stories are published for "🇳🇱 Hacker News Dutch"