MoE modellerinde bazı uzmanlar diğerlerine kıyasla daha sık aktive olarak sistem verimsizliğine yol açıyor.
MoGE, uzmanları gruplar halinde seçerek uzman yükünü doğuştan daha iyi dengeliyor.
MoGE mimarisi, her önceden tanımlı uzman grubunda eşit sayıda uzmanın aktifleşmesini sağlayarak cihazlar arasında dengeli hesaplama yükü sunuyor.
Pangu Pro MoE, 72 milyar toplam parametreye sahip MoGE tabanlı bir model olup token başına 16 milyar parametreyi aktive ediyor.
Model, Ascend 300I Duo ve 800I A2 için optimize edilerek eğitim ve çıkarım aşamasında yüksek verimlilik sağlıyor.
Pangu Pro MoE çıkarım performansı kart başına 1148 token/s’ye ulaşıyor ve spekülatif hızlandırmayla 1528 token/s’ye çıkıyor.
Model, karşılaştırılabilir 32B ve 72B yoğun modelleri geride bırakarak maliyet-performans oranında üstünlük sunuyor.
Alt-100 milyar parametre sınıfında Pangu Pro MoE, GLM-Z1-32B ve Qwen3-32B gibi önde gelen açık kaynak modelleri aşıyor.
Get notified when new stories are published for "🇹🇷 Hacker News Türkçe"