MoGE gruppiert Experten und sorgt dafür, dass jeder Token innerhalb jeder Expertengruppe gleich viele Experten aktiviert.
Die Gruppierung führt zu einer ausgewogeneren Verteilung der Arbeitslast auf mehrere Geräte und steigert die Durchsatzrate.
Pangu Pro MoE ist ein sparsames Modell mit 72 Milliarden Parametern, von denen pro Token 16 Milliarden aktiv sind.
Auf Ascend NPUs erreicht Pangu Pro MoE 1148 Tokens/s pro Karte und 1528 Tokens/s mit Spekulationsbeschleunigung.
Das Modell bietet ein hervorragendes Kosten-Leistungs-Verhältnis und übertrifft vergleichbare dichte 32B- und 72B-Modelle.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"