Læringsmodeller har vokst raskt fra GPT-2 til GPT-4 med parametere fra millioner til flere hundre milliarder.
LLaMA-serien utvidet seg fra 7B til 405B parametere ved bruk av billioner av trenings-tokener.
Mixture-of-Experts-arkitektur (MoE) aktiverer bare en del av modellens parametere for å skape enda større modeller.
Åpne MoE-modeller som DeepSeek, DBRX, MiniMax, Dots.llm1, Hunyuan og ERNIE gir nå tilgang til svært store modeller.
Frigivelsen av store modeller har økt tilgjengeligheten globalt, særlig i Kina, men gjør sammenligning med tette modeller utfordrende.
For gode tekstfortsettelsesmodeller kreves enorme modeller, men nye arkitekturer og data-teknikker kan endre fremtiden.
Get notified when new stories are published for "🇳🇴 Hacker News Norsk Bokmål"