MiniMax-M1 é um modelo de raciocínio híbrido de atenção em larga escala e aberto ao público.
Possui arquitetura de Mixture-of-Experts (MoE) combinada com um mecanismo de atenção rápida.
Treinado com ênfase em tarefas complexas que requerem processamento de entradas longas.
Capaz de trabalhar com comprimento de contexto de até 1 milhão de tokens.
Destaca-se em benchmarks de raciocínio matemático e engenharia de software.
Get notified when new stories are published for "🇵🇹 Hacker News Português"