Avaliação de LLMs em Aventuras Textuais

1

Propõe-se avaliar LLMs em aventuras textuais medindo conquistas obtidas dentro de um limite de turnos.

2

Define-se conquistas específicas que são registadas quando o texto do jogo corresponde a padrões predefinidos.

3

Utiliza-se regressão linear para ajustar a classificação de modelos considerando a dificuldade de cada jogo.

4

Modelos como Claude 4 Opus e Gemini 2.5 Flash destacam-se por bom desempenho relativo e baixo custo.

5

Modelos pequenos e baratos apresentam desempenho significativamente inferior em resolver aventuras textuais.

6

A variabilidade de pontuações entre execuções é alta em jogos abertos, dificultando avaliações consistentes.

7

Aventuras com início mais linear, como Lost Pig e Plundered Hearts, permitem avaliações mais estáveis.

8

LLMs continuam com desempenho insatisfatório em aventuras textuais e consumo elevado de créditos de API impede testes mais extensos.