Modele GPT rozwijały się od GPT-2 (137M–1,6B parametrów) przez GPT-3 (175B) do nieujawnionych architektur GPT-3.5 i GPT-4, z rosnącymi zbiorami danych treningowych sięgającymi bilionów tokenów.
Rodzina LLaMA obejmuje modele od 7B do 65B parametrów, a Llama-3.1 z 405B jest największym gęstym modelem bazowym, trenowanym na ponad 3,6T tokenów przy użyciu techniki „annealing”.
Architektury MoE (Mixture-of-Experts) z modelami takimi jak Mixtral, DeepSeek-V3 czy DBRX umożliwiły trening gigantycznych modeli (do 671B parametrów) bez potrzeby superkomputerów.
Przez wiele lat brakowało otwarto dostępnych modeli porównywalnych do GPT-3, a przełomem był Llama-3.1 i napływ otwartych modeli MoE, które zrewolucjonizowały możliwości społeczności.
Porównanie modeli gęstych i MoE jest niejasne, a obecne benchmarki nie oddają w pełni jakości; rośnie też trend na tworzenie chatbotów asystentów i wykorzystywanie syntetycznych danych.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"