Pangu Pro MoE: Ομαδοποιημένοι Εμπειρογνώμονες

Το MoGE ομαδοποιεί τους εμπειρογνώμονες για καλύτερη κατανομή του φόρτου εργασίας.

Κάθε token ενεργοποιεί ίσο αριθμό εμπειρογνωμόνων σε κάθε ομάδα.

Η δομή εξασφαλίζει ισορροπημένο υπολογιστικό φορτίο σε πολλαπλές συσκευές.

Το μοντέλο έχει 72 δισεκατομμύρια παραμέτρους, με 16 δισεκατομμύρια ενεργοποιούμενες ανά token.

Επιτυγχάνει 1148 tokens/s ανά κάρτα και έως 1528 tokens/s με speculative acceleration.

Υπερτερεί των συγκρίσιμων πυκνών μοντέλων των 32B και 72B.

Βελτιστοποιήθηκε για Ascend 300I Duo και 800I A2 NPUs.

Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"

No Sign-In needed. One-Click Subscribe.