Эффективность токенов в моделях рассуждений

Открытые модели рассуждений в среднем используют в 1.5–4 раза больше токенов, чем закрытые модели.

Для простых фактических вопросов открытые модели могут расходовать до 10 раз больше токенов, несмотря на более низкую цену за токен.

Закрытые модели (OpenAI, Grok-4, Claude) оптимизируют цепочку мысли, выдавая её в сжатом виде и сокращая расходы токенов.

Наиболее токеноэффективной среди открытых моделей оказалась llama-3.3-nemotron-super-49b-v1, а наихудшие результаты показали модели Magistral.

OpenAI gpt-oss-120b и gpt-oss-20b демонстрируют рекордную плотность цепочки мысли, значительно уменьшая лишние токены.

Разрыв по эффективности токенов зависит от домена задачи: наиболее велик для фактических вопросов (~3×), для математики и логических задач менее 2×.

Интенсивность рассуждений увеличивается для модифицированных или нетипичных задач — это свидетельствует о влиянии предобученных предрассудков.

Экономия токенов критична для снижения стоимости, задержек и эффективного использования контекста при сложных запросах.

Рекомендовано использовать открытые модели gpt-oss как эталон для оптимизации цепочек мысли в других открытых моделях.

Токеновая эффективность становится важным критерием при выборе модели для продакшн-задач с ограниченными ресурсами.

Get notified when new stories are published for "Hacker News 🇷🇺 Русский"

•

Открытые модели рассуждений в среднем используют в 1.5–4 раза больше токенов, чем закрытые модели.

OpenAI gpt-oss-120b и gpt-oss-20b демонстрируют рекордную плотность цепочки мысли, значительно уменьшая лишние токены.

Get notified when new stories are published for "Hacker News 🇷🇺 Русский"