基础大模型发展趋势

1

2019年OpenAI发布GPT-2系列模型，参数规模从1.37亿到16.1亿，训练数据约10亿tokens左右.

2

2020年GPT-3达到1750亿参数，使用约4000亿tokens训练，耗时数月、数万张A100 GPU.

3

LLaMA家族推出7B至65B规模模型，最高预训练1.4万亿tokens；2024年Llama-3.1有405B参数，3.67万亿tokens训练量.

4

Llama-4规划中最大模型为2万亿参数MoE架构，但尚未开源，其下游蒸馏模型表现一般.

5

自2023年底起，多种MoE模型如Mixtral、DeepSeek、DBRX、MiniMax、dots.llm1、Hunyuan、ERNIE相继发布，推动模型规模和训练tokens持续增长.

6

MoE架构通过激活子集专家实现更大规模部署，但与密集模型性能对比尚无定论，现有基准测试难以衡量稠密度与深度差异.

7

基础模型开发趋向在预训练后加入annealing或任务微调，使其更像“助手”角色，而非纯文本续写引擎.

8

原始模型规模仍是能力基础，未来可能出现新架构和合成数据技术，但纯文本续写引擎仍是核心能力。