MoGE agrupa especialistas para equilibrar a carga de trabalho entre dispositivos.
O método força cada token a ativar o mesmo número de especialistas em cada grupo.
Pangu Pro MoE tem 72 B parâmetros totais, dos quais 16 B são ativados por token.
Otimizou-se a configuração para Ascend 300I Duo e 800I A2 via simulações de sistema.
Em testes, MoGE melhorou o balanceamento de carga e a eficiência em treino e inferência.
Na inferência alcança 1148 a 1528 tokens/s por cartão, superando modelos densos comparáveis.
Obteve excelente relação custo-desempenho em Ascend 300I Duo, superando GLM-Z1-32B e Qwen3-32B.
Get notified when new stories are published for "🇵🇹 Hacker News Português"