Tendências em Modelos Base de LLM

1

GPT-2 e GPT-3 definiram os patamares iniciais de escala de parâmetros: 1,61B e 175B, respetivamente.

2

Modelos Llama escalaram até 65B parâmetros com 1,4T tokens de treino, e Llama-3.1 alcançou 405B parâmetros com 3,67T tokens.

3

Llama-4 propõe um modelo MoE de 2T parâmetros mas permanece não lançado e envolvido em polêmica académica.

4

A vaga MoE atual inclui DeepSeek V3, Mixtral, DBRX, MiniMax, dots.llm1, Hunyuan e ERNIE, com centenas de biliões de parâmetros ativos e biliões de tokens de treino.

5

Modelos MoE usam ativação parcial de parâmetros, permitindo maior escala sem exigir infraestruturas massivas de GPU.

6

A comparação entre modelos densos e MoE continua incerta, e os benchmarks atuais podem não refletir diferenças reais de desempenho.

7

Futuras inovações poderão surgir em arquiteturas (RWKV, bitnet) e dados sintéticos, mas o impacto na qualidade de continuação de texto base permanece por determinar.

Tendências em Modelos Base de LLM

Subscribe to Similar Stories