GPT-2 e GPT-3 definiram os patamares iniciais de escala de parâmetros: 1,61B e 175B, respetivamente.
Modelos Llama escalaram até 65B parâmetros com 1,4T tokens de treino, e Llama-3.1 alcançou 405B parâmetros com 3,67T tokens.
Llama-4 propõe um modelo MoE de 2T parâmetros mas permanece não lançado e envolvido em polêmica académica.
A vaga MoE atual inclui DeepSeek V3, Mixtral, DBRX, MiniMax, dots.llm1, Hunyuan e ERNIE, com centenas de biliões de parâmetros ativos e biliões de tokens de treino.
Modelos MoE usam ativação parcial de parâmetros, permitindo maior escala sem exigir infraestruturas massivas de GPU.
A comparação entre modelos densos e MoE continua incerta, e os benchmarks atuais podem não refletir diferenças reais de desempenho.
Futuras inovações poderão surgir em arquiteturas (RWKV, bitnet) e dados sintéticos, mas o impacto na qualidade de continuação de texto base permanece por determinar.
Get notified when new stories are published for "🇵🇹 Hacker News Português"