GPT-2-serien (2019) omfattede modeller fra 137M til 1,61B parametre trænet på omkring 10B tokens.
GPT-3 (2020) med 175B parametre blev trænet på cirka 400B tokens og krævede et stort GPU-cluster.
LLaMA-familien (7B til 65B) brugte massive datasæt som Books3, og LLaMA-3.1 (405B) trænede på i alt 3,67T tokens.
LLaMA-4 (forventet 2025) planlægges som en 2T MoE-model, men er endnu ikke udgivet, og de mindre varianter har lavere ydeevne.
MoE-bølgen startede med modeller som Mixtral og DeepSeek V3 med flere hundrede milliarder parametre og billioner af tokens.
Nutidens trend er åbne MoE-modeller med høj sparsitet, men det er uklart, hvordan de direkte sammenlignes med tætte modeller.
Fremtidige fremskridt kan inkludere nye arkitekturer og syntetisk data, men rå tekstforsættelsesevne forbliver grundlæggende.
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"