Evoluzione dei modelli linguistici di base

1

I modelli GPT-2 e GPT-3 hanno scalato da centinaia di milioni a 175 miliardi di parametri.

2

Le informazioni su GPT-3.5 e GPT-4 restano limitate e non ufficiali.

3

I modelli Llama sono cresciuti fino a 405 miliardi di parametri con Llama-3.1, mentre Llama-4 da 2T parametri rimane unreleased.

4

La tecnica MoE (Mixture of Experts) sta emergendo come trend dominante per modelli di grandi dimensioni, permettendo di attivare solo una parte dei parametri in inferenza.

5

Modelli open come DeepSeek V3, DBRX e altri mostrano MoE con attivazioni selettive e addestramenti su trilioni di token.

6

L'accesso a grandi modelli scaricabili è aumentato dopo il rilascio di modelli densi e MoE di grandi dimensioni.

7

Confrontare prestazioni tra modelli densi e MoE resta complesso, e i benchmark attuali non catturano tutte le differenze.

8

Futuri sviluppi potrebbero includere nuove architetture e tecniche di generazione di dati sintetici per affinare i modelli di continuazione testuale.

Evoluzione dei modelli linguistici di base

Subscribe to Similar Stories

Evoluzione dei modelli linguistici di base

Subscribe to Similar Stories