MoGE группирует экспертов для равномерного распределения нагрузки.
Ограничение на активацию экспертов улучшает балансировку на устройствах.
Pangu Pro MoE на Ascend NPUs достигает 1148 токенов/сек.
Спекулятивное ускорение повышает скорость до 1528 токенов/сек.
Модель превосходит плотные 32B и 72B аналоги по эффективности.
Get notified when new stories are published for "🇷🇺 Hacker News Русский"