MoGE groepeert experts in groepen en zorgt dat elk token een gelijk aantal experts per groep activeert.
Dit verbetert de verdeling van werk tussen apparaten en verhoogt de efficiëntie.
Pangu Pro MoE heeft 72 miljard parameters, waarvan 16 miljard per token worden geactiveerd.
De inference haalt 1148 tokens/s per NPU-kaart, tot 1528 met speculatieve versnelling.
Het model biedt een gunstige kosten-prestatieverhouding op Ascend 300I Duo en overtreft vergelijkbare modellen.
Get notified when new stories are published for "🇳🇱 Hacker News Dutch"