Effektiv ekspertmiksering i språkmodeller

Pangu Pro MoE bruker Mixture of Grouped Experts (MoGE) for å balansere ekspertaktivering.

MoGE tvinger tokens til å aktivere likt antall eksperter i hver forhåndsdefinert gruppe for jevn arbeidsfordeling.

Designen sikrer balansert beregningsbelastning på tvers av enheter og øker gjennomstrømningen ved inferens.

Modellen har 72 milliarder parametere, hvorav 16 milliarder aktiveres per token for effektiv sparsitet.

På Ascend NPUs oppnås inntil 1528 tokens/s per enhet, med bedre kostnad-ytelsesforhold enn tette modeller.

Get notified when new stories are published for "🇳🇴 Hacker News Norsk Bokmål"

No Sign-In needed. One-Click Subscribe.

•

Pangu Pro MoE bruker Mixture of Grouped Experts (MoGE) for å balansere ekspertaktivering.

MoGE tvinger tokens til å aktivere likt antall eksperter i hver forhåndsdefinert gruppe for jevn arbeidsfordeling.

Designen sikrer balansert beregningsbelastning på tvers av enheter og øker gjennomstrømningen ved inferens.

Modellen har 72 milliarder parametere, hvorav 16 milliarder aktiveres per token for effektiv sparsitet.

På Ascend NPUs oppnås inntil 1528 tokens/s per enhet, med bedre kostnad-ytelsesforhold enn tette modeller.

Get notified when new stories are published for "🇳🇴 Hacker News Norsk Bokmål"

No Sign-In needed. One-Click Subscribe.