Představení architektury MoGE (Mixture of Grouped Experts) pro vyvážené zatížení expertů.
MoGE zaručuje stejnou aktivaci expertů v každé skupině, což vytváří rovnoměrné rozložení výpočetního zatížení napříč zařízeními.
Pangu Pro MoE s 72 miliardami parametrů a aktivací 16 miliard parametrů na token je optimalizován pro Ascend NPUs (300I Duo, 800I A2).
MoGE zvyšuje průchodnost při inferenci na Ascend NPUs až na 1528 tokenů/s na kartu spekulativním urychlením.
MoGE nabízí lepší poměr nákladů k výkonu než srovnatelné husté modely 32B a 72B.
Ascend NPUs umožňují efektivní trénink Pangu Pro MoE s masivní paralelizací, překonávající otevřené modely GLM-Z1-32B a Qwen3-32B.
Get notified when new stories are published for "🇨🇿 Hacker News Čeština "