Pangu Pro MoE: Grupowanie Ekspertów dla Efektywnej Rzadkości

1

Wprowadzono architekturę Mixture of Grouped Experts (MoGE), która grupuje ekspertów i wymusza aktywację równej liczby ekspertów w każdej grupie.

2

MoGE lepiej równoważy obciążenie ekspertów przy rozproszeniu obliczeń na różnych urządzeniach, co zwiększa przepustowość.

3

Pangu Pro MoE ma 72 miliardy parametrów, z których 16 miliardów jest aktywowanych dla każdego tokena.

4

Konfiguracja Pangu Pro MoE została zoptymalizowana pod układy Ascend 300I Duo i 800I A2 poprzez symulacje systemowe.

5

W eksperymentach MoGE wykazało się lepszym zrównoważeniem obciążenia i efektywniejszą realizacją treningu oraz inferencji na Ascend NPU.

6

Inferencja Pangu Pro MoE osiąga 1148 tokenów/s na kartę, a dzięki przyspieszeniu spekulatywnemu 1528 tokenów/s, przewyższając modele Dense 32B i 72B.

7

Uzyskano doskonały stosunek kosztu do wydajności inferencji na Ascend 300I Duo.

8

Ascend NPU umożliwia masową paralelizację treningu Pangu Pro MoE, co czyni go wiodącym modelem w klasie poniżej 100 mld parametrów, przewyższając otwarte modele GLM-Z1-32B i Qwen3-32B.

Pangu Pro MoE: Grupowanie Ekspertów dla Efektywnej Rzadkości

Subscribe to Similar Stories

Pangu Pro MoE: Grupowanie Ekspertów dla Efektywnej Rzadkości

Subscribe to Similar Stories