Verimli Seyreklik İçin Gruplu Uzmanlar Karışımı

1

MoE modellerinde bazı uzmanlar diğerlerine kıyasla daha sık aktive olarak sistem verimsizliğine yol açıyor.

2

MoGE, uzmanları gruplar halinde seçerek uzman yükünü doğuştan daha iyi dengeliyor.

3

MoGE mimarisi, her önceden tanımlı uzman grubunda eşit sayıda uzmanın aktifleşmesini sağlayarak cihazlar arasında dengeli hesaplama yükü sunuyor.

4

Pangu Pro MoE, 72 milyar toplam parametreye sahip MoGE tabanlı bir model olup token başına 16 milyar parametreyi aktive ediyor.

5

Model, Ascend 300I Duo ve 800I A2 için optimize edilerek eğitim ve çıkarım aşamasında yüksek verimlilik sağlıyor.

6

Pangu Pro MoE çıkarım performansı kart başına 1148 token/s’ye ulaşıyor ve spekülatif hızlandırmayla 1528 token/s’ye çıkıyor.

7

Model, karşılaştırılabilir 32B ve 72B yoğun modelleri geride bırakarak maliyet-performans oranında üstünlük sunuyor.

8

Alt-100 milyar parametre sınıfında Pangu Pro MoE, GLM-Z1-32B ve Qwen3-32B gibi önde gelen açık kaynak modelleri aşıyor.