MoGEは専門家をグループ化して選択し、従来のMoEで問題となっていた専門家間の負荷不均衡を解消します。
各トークンは定義済みの専門家グループ内で同数の専門家を活性化し、デバイス間の計算負荷を均等化します。
Ascend NPU向けに最適化されたPangu Pro MoEは総パラメータ数720億、トークンごとに160億を活性化します。
推論性能は1カード当たり1148トークン/秒から、スペキュレーティブ加速で1528トークン/秒に到達し、同容量のDenseモデルを上回ります。
コスト対性能比が高く、1000億未満パラメータクラスのモデルとして主要な性能を示します。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"