MiniMax-M1 è il primo modello di ragionamento a grande scala con attenzione ibrida e pesi aperti al mondo.
È basato su un'architettura Mixture-of-Experts (MoE) combinata con un meccanismo di attenzione lightning.
Il modello supporta nativamente una lunghezza di contesto di 1 milione di token.
MiniMax-M1 consuma il 25% delle operazioni in virgola mobile di DeepSeek R1 a una lunghezza di generazione di 100.000 token.
Il modello si adatta bene a compiti complessi, come l'ingegneria del software e le attività che richiedono lunghi input.
È addestrato usando il reinforcement learning su larga scala su problemi che vanno dalla matematica tradizionale all'ingegneria del software nel mondo reale.
Due versioni sono state addestrate con budget di riflessione di 40.000 e 80.000, rispettivamente.
Gli esperimenti mostrano che MiniMax-M1 supera modelli open-weight forti come DeepSeek-R1 su compiti complessi.
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"