MoGEによる効率的な専門家選択

MoGEは専門家をグループ化して選択し、従来のMoEで問題となっていた専門家間の負荷不均衡を解消します。

各トークンは定義済みの専門家グループ内で同数の専門家を活性化し、デバイス間の計算負荷を均等化します。

Ascend NPU向けに最適化されたPangu Pro MoEは総パラメータ数720億、トークンごとに160億を活性化します。

推論性能は1カード当たり1148トークン/秒から、スペキュレーティブ加速で1528トークン/秒に到達し、同容量のDenseモデルを上回ります。

コスト対性能比が高く、1000億未満パラメータクラスのモデルとして主要な性能を示します。

Get notified when new stories are published for "🇯🇵 Hacker News 日本語"

No Sign-In needed. One-Click Subscribe.

•

MoGEは専門家をグループ化して選択し、従来のMoEで問題となっていた専門家間の負荷不均衡を解消します。

各トークンは定義済みの専門家グループ内で同数の専門家を活性化し、デバイス間の計算負荷を均等化します。

Ascend NPU向けに最適化されたPangu Pro MoEは総パラメータ数720億、トークンごとに160億を活性化します。

推論性能は1カード当たり1148トークン/秒から、スペキュレーティブ加速で1528トークン/秒に到達し、同容量のDenseモデルを上回ります。

コスト対性能比が高く、1000億未満パラメータクラスのモデルとして主要な性能を示します。

Get notified when new stories are published for "🇯🇵 Hacker News 日本語"

No Sign-In needed. One-Click Subscribe.