Pangu Pro MoE: Gebalanceerde Expertengroepering voor Efficiëntie

1

MoGE groepeert experts in groepen en zorgt dat elk token een gelijk aantal experts per groep activeert.

2

Dit verbetert de verdeling van werk tussen apparaten en verhoogt de efficiëntie.

3

Pangu Pro MoE heeft 72 miljard parameters, waarvan 16 miljard per token worden geactiveerd.

4

De inference haalt 1148 tokens/s per NPU-kaart, tot 1528 met speculatieve versnelling.

5

Het model biedt een gunstige kosten-prestatieverhouding op Ascend 300I Duo en overtreft vergelijkbare modellen.