Eficiência de Tokens em Modelos de Raciocínio

Modelos open weight utilizam 1,5 a 4 vezes mais tokens que os closed weight em tarefas semelhantes.

Em perguntas de conhecimento simples, a ineficiência pode chegar a 10 vezes mais tokens nos modelos open weight.

A diferença de eficiência reduz-se para menos de 2 vezes em problemas matemáticos e puzzles lógicos.

Modelos closed weight, como OpenAI e Grok-4, priorizam cadeias de pensamento mais curtas para cortar custos.

Entre os open weight, o llama-3.3-nemotron-super-49b-v1 é o mais eficiente em tokens antes do gpt-oss.

Os modelos Magistral destacam-se como outliers com uso de tokens excepcionalmente elevado.

O gpt-oss-120b inaugura um novo patamar de eficiência em tokens para modelos open weight.

A eficiência de tokens impacta diretamente os custos de inferência, latência e capacidade de contexto.

Get notified when new stories are published for "Hacker News 🇵🇹 Português"

No Sign-In needed. One-Click Subscribe.

•