Wprowadzono architekturę Mixture of Grouped Experts (MoGE), która grupuje ekspertów i wymusza aktywację równej liczby ekspertów w każdej grupie.
MoGE lepiej równoważy obciążenie ekspertów przy rozproszeniu obliczeń na różnych urządzeniach, co zwiększa przepustowość.
Pangu Pro MoE ma 72 miliardy parametrów, z których 16 miliardów jest aktywowanych dla każdego tokena.
Konfiguracja Pangu Pro MoE została zoptymalizowana pod układy Ascend 300I Duo i 800I A2 poprzez symulacje systemowe.
W eksperymentach MoGE wykazało się lepszym zrównoważeniem obciążenia i efektywniejszą realizacją treningu oraz inferencji na Ascend NPU.
Inferencja Pangu Pro MoE osiąga 1148 tokenów/s na kartę, a dzięki przyspieszeniu spekulatywnemu 1528 tokenów/s, przewyższając modele Dense 32B i 72B.
Uzyskano doskonały stosunek kosztu do wydajności inferencji na Ascend 300I Duo.
Ascend NPU umożliwia masową paralelizację treningu Pangu Pro MoE, co czyni go wiodącym modelem w klasie poniżej 100 mld parametrów, przewyższając otwarte modele GLM-Z1-32B i Qwen3-32B.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"