MiniMax-M1は、世界初の大規模なハイブリッドアテンション推論モデルである。
このモデルは、ハイブリッドのMixture-of-Experts(MoE)アーキテクチャとライトニングアテンション機構を組み合わせている。
MiniMax-Text-01から開発され、4,560億のパラメータを持ち、1つのトークンにつき45.9億のパラメータが活性化する。
MiniMax-M1は、コンテキストの長さが1ミリオントークンに対応し、DeepSeek R1と比較して8倍のコンテキストサイズを持つ。
このモデルは、テスト時の計算を効率的にスケーリングすることができ、100Kトークンの生成長においてDeepSeek R1の25%のFLOPsしか消費しない。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"