Открытые модели рассуждений в среднем используют в 1.5–4 раза больше токенов, чем закрытые модели.
Для простых фактических вопросов открытые модели могут расходовать до 10 раз больше токенов, несмотря на более низкую цену за токен.
Закрытые модели (OpenAI, Grok-4, Claude) оптимизируют цепочку мысли, выдавая её в сжатом виде и сокращая расходы токенов.
Наиболее токеноэффективной среди открытых моделей оказалась llama-3.3-nemotron-super-49b-v1, а наихудшие результаты показали модели Magistral.
OpenAI gpt-oss-120b и gpt-oss-20b демонстрируют рекордную плотность цепочки мысли, значительно уменьшая лишние токены.
Разрыв по эффективности токенов зависит от домена задачи: наиболее велик для фактических вопросов (~3×), для математики и логических задач менее 2×.
Интенсивность рассуждений увеличивается для модифицированных или нетипичных задач — это свидетельствует о влиянии предобученных предрассудков.
Экономия токенов критична для снижения стоимости, задержек и эффективного использования контекста при сложных запросах.
Рекомендовано использовать открытые модели gpt-oss как эталон для оптимизации цепочек мысли в других открытых моделях.
Токеновая эффективность становится важным критерием при выборе модели для продакшн-задач с ограниченными ресурсами.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"