История GPT-2 показала рост параметров от 137 млн до 1,61 млрд на наборе ~10 млрд токенов.
GPT-3 имела 175 млрд параметров и обучалась на ~400 млрд токенов из CommonCrawl, WebText2, Books1, Books2 и Википедии.
Официальных данных по архитектурам и обучающим данным GPT-3.5 и GPT-4 нет.
LLaMA-модели (7B–65B) обучались на корпусе 1,4 трлн токенов, включая Books3.
LLaMA-3.1 (2024) с 405 млрд параметров обучена на 3,67 трлн токенов, но без раскрытия деталей данных.
LLaMA-4 (2025) планировалась как MoE-модель 2 трлн параметров, но не выпущена из-за скандала и академических нарушений.
До выхода 405B были ограничены возможности скачивания моделей, сопоставимых с GPT-3.
Волна MoE-моделей (Mixtral, DeepSeek-V3, DBRX и др.) привела к моделям сотен миллиардов параметров и триллионам токенов без суперкомпьютеров.
Многие современные MoE-модели мультимодальны, мультиязычны и используют большие контексты, что усложняет сравнение с плотными моделями.
Тенденция переориентации базовых моделей на роли чатботов-ассистентов оказала влияние на подход к оценке качества и выбор архитектур.
Get notified when new stories are published for "🇷🇺 Hacker News Русский"