Оценка LLM В Текстовых Приключениях

Предложен метод оценки LLM по достижению игровых достижений в ограниченных ходах.

Использована линейная регрессия для учёта сложности игр при ранжировании моделей.

Gemini 2.5 Flash показала высокую эффективность при низкой стоимости.

Топовые модели почти не превосходят свои более дешёвые версии.

В нелинейных играх результаты игры сильно варьируются, более линейные сценарии дают стабильнейшие оценки.

Get notified when new stories are published for "Hacker News 🇷🇺 Русский"

No Sign-In needed. One-Click Subscribe.

•

Предложен метод оценки LLM по достижению игровых достижений в ограниченных ходах.

Использована линейная регрессия для учёта сложности игр при ранжировании моделей.

Gemini 2.5 Flash показала высокую эффективность при низкой стоимости.

Топовые модели почти не превосходят свои более дешёвые версии.

В нелинейных играх результаты игры сильно варьируются, более линейные сценарии дают стабильнейшие оценки.

Get notified when new stories are published for "Hacker News 🇷🇺 Русский"

No Sign-In needed. One-Click Subscribe.