MiniMax-M1 est un modèle de raisonnement à attention hybride de grande échelle et à poids ouvert.
Le modèle utilise une architecture MoE et un mécanisme d'attention rapide, activant 45,9 milliards de paramètres par jeton.
MiniMax-M1 offre un support natif pour une longueur de contexte de 1 million de jetons, surpassant plusieurs autres modèles.
Le modèle est entraîné sur une variété de problèmes, utilisant un cadre de RL à grande échelle.
MiniMax-M1 a démontré son efficacité dans des tâches complexes, surpassant d'autres modèles comme DeepSeek-R1 et Qwen3-235B.
Les expériences montrent que MiniMax-M1 est particulièrement performant dans les domaines du génie logiciel complexe et des tâches à long contexte.
Get notified when new stories are published for "🇫🇷 Hacker News Français"