Die Parametergrößen von Basis-LLMs wuchsen von GPT-2 (bis 1,6 Mrd.) über GPT-3 (175 Mrd.) bis hin zu aktuellen Modellen mit hunderten Milliarden bis zu mehreren Billionen Parametern.
GPT-2-Modelle wurden auf rund 10 Mrd. Token trainiert, GPT-3 auf etwa 400 Mrd. Token, zu GPT-3.5 und GPT-4 liegen keine offiziellen Trainingsdaten vor.
Die Meta-LLaMA-Reihe begann mit 7–65 Mrd. Parametern und erreichte 2024 mit LLaMA 3.1 405 Mrd. Parametern bei insgesamt 3,67 Billionen Token Pretraining.
Llama 4 plante einen aktiven Experten-MoE-Ansatz mit 2 Billionen Parametern, blieb aber unveröffentlicht und löste einen Vertrauensskandal aus.
Der aktuelle MoE-Trend ermöglichte mit sparsamen Expertenswitching Modelle wie Mixtral, DeepSeek V3 und DBRX mit Milliarden aktivierten Parametern.
Moderne MoE-Modelle sind oft multimodal und mehrsprachig, nutzen vielfältige Datensets und lassen sich schwer direkt mit dichten Modellen vergleichen.
Zukünftige Entwicklungen könnten neue Architekturen (z. B. RWKV, Byte-Latent) und synthetische Datengenerierung einsetzen, während reine Textfortsetzung weiterhin im Fokus steht.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"