Utvikling Av Store Språkmodeller

1

Læringsmodeller har vokst raskt fra GPT-2 til GPT-4 med parametere fra millioner til flere hundre milliarder.

2

LLaMA-serien utvidet seg fra 7B til 405B parametere ved bruk av billioner av trenings-tokener.

3

Mixture-of-Experts-arkitektur (MoE) aktiverer bare en del av modellens parametere for å skape enda større modeller.

4

Åpne MoE-modeller som DeepSeek, DBRX, MiniMax, Dots.llm1, Hunyuan og ERNIE gir nå tilgang til svært store modeller.

5

Frigivelsen av store modeller har økt tilgjengeligheten globalt, særlig i Kina, men gjør sammenligning med tette modeller utfordrende.

6

For gode tekstfortsettelsesmodeller kreves enorme modeller, men nye arkitekturer og data-teknikker kan endre fremtiden.