Trends in Basis-LLM-Modellen

1

Het aantal parameters van LLMs groeide van miljoenen (GPT-2) naar honderden miljarden (GPT-3) en zelfs triljoenen (Llama-4).

2

Trainingsdatasets namen toe van ongeveer 10 miljard tokens (WebText voor GPT-2) tot meer dan 14 triljard tokens voor recente MoE-modellen.

3

LLaMA-modellen (tot 65B) gebruikten voornamelijk boekenmateriaal en vormden een keerpunt in de beschikbaarheid van grote LLMs.

4

De opkomst van MoE-architecturen (Mixtral, DeepSeek, DBRX) maakte grote modellen toegankelijker door sparsiteit en expertoproepen.

5

Annealing en fijn afgestemde data verschoven basismodellen richting geoptimaliseerde assistentprestaties, wat de puur tekstvoortzetting beïnvloedt.

6

Er is onduidelijkheid over de vergelijkbaarheid tussen dichte en MoE-modellen en de validiteit van huidige benchmarks.

7

Toekomstige ontwikkelingen kunnen nieuwe architecturen (RWKV, byte-latent) en synthetische trainingsdata omvatten.