Το MoGE ομαδοποιεί τους εμπειρογνώμονες για καλύτερη κατανομή του φόρτου εργασίας.
Κάθε token ενεργοποιεί ίσο αριθμό εμπειρογνωμόνων σε κάθε ομάδα.
Η δομή εξασφαλίζει ισορροπημένο υπολογιστικό φορτίο σε πολλαπλές συσκευές.
Το μοντέλο έχει 72 δισεκατομμύρια παραμέτρους, με 16 δισεκατομμύρια ενεργοποιούμενες ανά token.
Επιτυγχάνει 1148 tokens/s ανά κάρτα και έως 1528 tokens/s με speculative acceleration.
Υπερτερεί των συγκρίσιμων πυκνών μοντέλων των 32B και 72B.
Βελτιστοποιήθηκε για Ascend 300I Duo και 800I A2 NPUs.
Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"