分组专家稀疏模型

提出了Mixture of Grouped Experts (MoGE)架构，通过在每个预定义专家组内平衡激活专家数，实现设备并行时的负载均衡。

基于MoGE设计了总参数量72亿、每令牌激活16亿参数的Pangu Pro MoE模型，并部署在Ascend NPU上。

通过系统仿真优化了Ascend 300I Duo和800I A2的配置，在训练和推理阶段均显著提升了吞吐量。

推理阶段每卡实现1148 tokens/s，通过推测加速可达1528 tokens/s，超过同规模的32B和72B稠密模型。

在Ascend 300I Duo上表现出优秀的成本性能比，使Pangu Pro MoE在100B以下参数规模中优于GLM-Z1-32B和Qwen3-32B等开源模型。

Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"

No Sign-In needed. One-Click Subscribe.

•

提出了Mixture of Grouped Experts (MoGE)架构，通过在每个预定义专家组内平衡激活专家数，实现设备并行时的负载均衡。

基于MoGE设计了总参数量72亿、每令牌激活16亿参数的Pangu Pro MoE模型，并部署在Ascend NPU上。

通过系统仿真优化了Ascend 300I Duo和800I A2的配置，在训练和推理阶段均显著提升了吞吐量。

推理阶段每卡实现1148 tokens/s，通过推测加速可达1528 tokens/s，超过同规模的32B和72B稠密模型。

在Ascend 300I Duo上表现出优秀的成本性能比，使Pangu Pro MoE在100B以下参数规模中优于GLM-Z1-32B和Qwen3-32B等开源模型。

Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"

No Sign-In needed. One-Click Subscribe.