Viene introdotto MoGE, una variante di Mixture of Experts che raggruppa gli esperti per bilanciare il carico di lavoro tra dispositivi.
MoGE impone che ciascun token attivi un numero uguale di esperti in ogni gruppo predefinito, migliorando l’efficienza computazionale.
Pangu Pro MoE è un modello sparso basato su MoGE con 72 miliardi di parametri, di cui 16 miliardi attivati per token, ottimizzato per Ascend NPUs.
L’inferenza su Ascend NPUs raggiunge 1148 token/s per scheda e fino a 1528 token/s con accelerazione speculativa, superando modelli densi di pari dimensioni.
Il modello offre un eccellente rapporto costi/prestazioni e, grazie alla parallelizzazione massiva, supera modelli open source come GLM-Z1-32B e Qwen3-32B.
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"