Предложен метод оценки LLM по достижению игровых достижений в ограниченных ходах.
Использована линейная регрессия для учёта сложности игр при ранжировании моделей.
Gemini 2.5 Flash показала высокую эффективность при низкой стоимости.
Топовые модели почти не превосходят свои более дешёвые версии.
В нелинейных играх результаты игры сильно варьируются, более линейные сценарии дают стабильнейшие оценки.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"