I modelli GPT-2 e GPT-3 hanno scalato da centinaia di milioni a 175 miliardi di parametri.
Le informazioni su GPT-3.5 e GPT-4 restano limitate e non ufficiali.
I modelli Llama sono cresciuti fino a 405 miliardi di parametri con Llama-3.1, mentre Llama-4 da 2T parametri rimane unreleased.
La tecnica MoE (Mixture of Experts) sta emergendo come trend dominante per modelli di grandi dimensioni, permettendo di attivare solo una parte dei parametri in inferenza.
Modelli open come DeepSeek V3, DBRX e altri mostrano MoE con attivazioni selettive e addestramenti su trilioni di token.
L'accesso a grandi modelli scaricabili è aumentato dopo il rilascio di modelli densi e MoE di grandi dimensioni.
Confrontare prestazioni tra modelli densi e MoE resta complesso, e i benchmark attuali non catturano tutte le differenze.
Futuri sviluppi potrebbero includere nuove architetture e tecniche di generazione di dati sintetici per affinare i modelli di continuazione testuale.
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"