提出了Mixture of Grouped Experts (MoGE)架构,通过在每个预定义专家组内平衡激活专家数,实现设备并行时的负载均衡。
基于MoGE设计了总参数量72亿、每令牌激活16亿参数的Pangu Pro MoE模型,并部署在Ascend NPU上。
通过系统仿真优化了Ascend 300I Duo和800I A2的配置,在训练和推理阶段均显著提升了吞吐量。
推理阶段每卡实现1148 tokens/s,通过推测加速可达1528 tokens/s,超过同规模的32B和72B稠密模型。
在Ascend 300I Duo上表现出优秀的成本性能比,使Pangu Pro MoE在100B以下参数规模中优于GLM-Z1-32B和Qwen3-32B等开源模型。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"