Évolution des Modèles de Base LLM

1

Les modèles GPT-2 (2019) ont progressé de 137M à 1,61B paramètres, entraînés sur environ 10B tokens de WebText.

2

GPT-3 (2020) utilise 175B paramètres et 400B tokens issus de données variées comme CommonCrawl et Wikipédia.

3

Les détails sur GPT-3.5 et GPT-4 ne sont pas publiquement divulgués concernant leur architecture et données.

4

Les modèles LLaMA (7B à 65B) et Llama-3.1 (405B) ont été formés sur des milliers de milliards de tokens, avec une montée en puissance de l’‘annealing’.

5

Les architectures Mixture-of-Experts (MoE) permettent d’augmenter la taille en activant partiellement les paramètres, comme Mixtral 8x7B et DeepSeek-V3.

6

La démocratisation des MoE a favorisé la sortie de modèles ouverts multilingues et multimodaux, ouvrant de nouvelles possibilités hors centres de données massifs.

Évolution des Modèles de Base LLM

Subscribe to Similar Stories