Тренды базовых языковых моделей

История GPT-2 показала рост параметров от 137 млн до 1,61 млрд на наборе ~10 млрд токенов.

GPT-3 имела 175 млрд параметров и обучалась на ~400 млрд токенов из CommonCrawl, WebText2, Books1, Books2 и Википедии.

Официальных данных по архитектурам и обучающим данным GPT-3.5 и GPT-4 нет.

LLaMA-модели (7B–65B) обучались на корпусе 1,4 трлн токенов, включая Books3.

LLaMA-3.1 (2024) с 405 млрд параметров обучена на 3,67 трлн токенов, но без раскрытия деталей данных.

LLaMA-4 (2025) планировалась как MoE-модель 2 трлн параметров, но не выпущена из-за скандала и академических нарушений.

До выхода 405B были ограничены возможности скачивания моделей, сопоставимых с GPT-3.

Волна MoE-моделей (Mixtral, DeepSeek-V3, DBRX и др.) привела к моделям сотен миллиардов параметров и триллионам токенов без суперкомпьютеров.

Многие современные MoE-модели мультимодальны, мультиязычны и используют большие контексты, что усложняет сравнение с плотными моделями.

Тенденция переориентации базовых моделей на роли чатботов-ассистентов оказала влияние на подход к оценке качества и выбор архитектур.

Get notified when new stories are published for "🇷🇺 Hacker News Русский"