2019年OpenAI发布GPT-2系列模型,参数规模从1.37亿到16.1亿,训练数据约10亿tokens左右.
2020年GPT-3达到1750亿参数,使用约4000亿tokens训练,耗时数月、数万张A100 GPU.
LLaMA家族推出7B至65B规模模型,最高预训练1.4万亿tokens;2024年Llama-3.1有405B参数,3.67万亿tokens训练量.
Llama-4规划中最大模型为2万亿参数MoE架构,但尚未开源,其下游蒸馏模型表现一般.
自2023年底起,多种MoE模型如Mixtral、DeepSeek、DBRX、MiniMax、dots.llm1、Hunyuan、ERNIE相继发布,推动模型规模和训练tokens持续增长.
MoE架构通过激活子集专家实现更大规模部署,但与密集模型性能对比尚无定论,现有基准测试难以衡量稠密度与深度差异.
基础模型开发趋向在预训练后加入annealing或任务微调,使其更像“助手”角色,而非纯文本续写引擎.
原始模型规模仍是能力基础,未来可能出现新架构和合成数据技术,但纯文本续写引擎仍是核心能力。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"