Se introduce Mixture of Grouped Experts (MoGE) para agrupar expertos y equilibrar mejor la carga de trabajo.
MoGE obliga a activar un número igual de expertos dentro de cada grupo predefinido de expertos.
Pangu Pro MoE cuenta con 72 000 millones de parámetros totales, de los cuales se activan 16 000 millones por token.
La configuración de Pangu Pro MoE está optimizada para Ascend 300I Duo y 800I A2 mediante simulaciones de sistema.
Las pruebas muestran mejor balance de carga y ejecución más eficiente en entrenamiento e inferencia en NPUs Ascend.
En inferencia, Pangu Pro MoE alcanza 1148 tokens/s por tarjeta, mejorando a 1528 tokens/s con aceleración especulativa.
Supera a modelos densos comparables de 32 B y 72 B parámetros en rendimiento.
Logra una excelente relación costo-rendimiento para la inferencia en Ascend 300I Duo.
Las NPUs Ascend permiten entrenar Pangu Pro MoE con paralelización masiva, destacándolo en la clase sub-100B.
Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"