효율적 희소성을 위한 전문가 그룹 혼합

MoGE는 전문가를 그룹화하여 각 토큰에 활성화되는 전문가 수를 균등하게 제한함으로써 로드 밸런싱을 개선한다.

Pangu Pro MoE(72B)는 Ascend NPU에 최적화되어 토큰당 16B 파라미터만 활성화하여 학습 및 추론 효율을 증대시킨다.

MoGE 아키텍처는 Ascend 300I Duo 및 800I A2에서 추론 처리량을 최대 1528 tokens/s로 향상시킨다.

Pangu Pro MoE는 32B 및 72B Dense 모델뿐 아니라 GLM-Z1-32B, Qwen3-32B 대비 비용 대비 성능 우위를 보인다.

Ascend NPU를 활용한 대규모 병렬 훈련으로 서브-100B 파라미터 클래스 모델 중 선도적 성능을 달성한다.

Get notified when new stories are published for "🇰🇷 Hacker News 한국어"

No Sign-In needed. One-Click Subscribe.

•

MoGE는 전문가를 그룹화하여 각 토큰에 활성화되는 전문가 수를 균등하게 제한함으로써 로드 밸런싱을 개선한다.

Pangu Pro MoE(72B)는 Ascend NPU에 최적화되어 토큰당 16B 파라미터만 활성화하여 학습 및 추론 효율을 증대시킨다.

MoGE 아키텍처는 Ascend 300I Duo 및 800I A2에서 추론 처리량을 최대 1528 tokens/s로 향상시킨다.

Pangu Pro MoE는 32B 및 72B Dense 모델뿐 아니라 GLM-Z1-32B, Qwen3-32B 대비 비용 대비 성능 우위를 보인다.

Ascend NPU를 활용한 대규모 병렬 훈련으로 서브-100B 파라미터 클래스 모델 중 선도적 성능을 달성한다.

Get notified when new stories are published for "🇰🇷 Hacker News 한국어"

No Sign-In needed. One-Click Subscribe.