Les modèles GPT-2 (2019) ont progressé de 137M à 1,61B paramètres, entraînés sur environ 10B tokens de WebText.
GPT-3 (2020) utilise 175B paramètres et 400B tokens issus de données variées comme CommonCrawl et Wikipédia.
Les détails sur GPT-3.5 et GPT-4 ne sont pas publiquement divulgués concernant leur architecture et données.
Les modèles LLaMA (7B à 65B) et Llama-3.1 (405B) ont été formés sur des milliers de milliards de tokens, avec une montée en puissance de l’‘annealing’.
Les architectures Mixture-of-Experts (MoE) permettent d’augmenter la taille en activant partiellement les paramètres, comme Mixtral 8x7B et DeepSeek-V3.
La démocratisation des MoE a favorisé la sortie de modèles ouverts multilingues et multimodaux, ouvrant de nouvelles possibilités hors centres de données massifs.
Get notified when new stories are published for "🇫🇷 Hacker News Français"