MoGE introduit des groupes d’experts pour équilibrer la charge de calcul.
Les jetons activent un nombre égal d’experts dans chaque groupe prédéfini.
Pangu Pro MoE compte 72 milliards de paramètres, dont 16 milliards activés par jeton.
Le modèle atteint 1148 jetons/s par carte et 1528 avec accélération spéculative.
Il offre un meilleur rapport coût-performances et surpasse les modèles denses comparables.
Get notified when new stories are published for "🇫🇷 Hacker News Français"