Modelos open weight utilizam 1,5 a 4 vezes mais tokens que os closed weight em tarefas semelhantes.
Em perguntas de conhecimento simples, a ineficiência pode chegar a 10 vezes mais tokens nos modelos open weight.
A diferença de eficiência reduz-se para menos de 2 vezes em problemas matemáticos e puzzles lógicos.
Modelos closed weight, como OpenAI e Grok-4, priorizam cadeias de pensamento mais curtas para cortar custos.
Entre os open weight, o llama-3.3-nemotron-super-49b-v1 é o mais eficiente em tokens antes do gpt-oss.
Os modelos Magistral destacam-se como outliers com uso de tokens excepcionalmente elevado.
O gpt-oss-120b inaugura um novo patamar de eficiência em tokens para modelos open weight.
A eficiência de tokens impacta diretamente os custos de inferência, latência e capacidade de contexto.
Get notified when new stories are published for "Hacker News 🇵🇹 Português"