MiniMax-M1 — это первая в мире открытая гибридная модель рассуждений с крупномасштабным вниманием, использующая архитектуру MoE и механизм lightning attention.
Модель поддерживает длину контекста до 1 миллиона токенов и потребляет меньше вычислительных ресурсов по сравнению с аналогами, такими как DeepSeek R1.
MiniMax-M1 может эффективно решать сложные задачи, требующие обработки длинных входных данных и глубокого анализа.
Модель была обучена с использованием крупномасштабного метода обучения с подкреплением на различных задачах, включая математические и программные задачи в реальных условиях.
MiniMax-M1 показал высокие результаты на стандартных тестах, превосходя другие открытые модели, такие как DeepSeek-R1 и Qwen3-235B.
Разработаны две версии модели с различными бюджетами мышления (40K и 80K).
Get notified when new stories are published for "🇷🇺 Hacker News Русский"