Propõe-se avaliar LLMs em aventuras textuais medindo conquistas obtidas dentro de um limite de turnos.
Define-se conquistas específicas que são registadas quando o texto do jogo corresponde a padrões predefinidos.
Utiliza-se regressão linear para ajustar a classificação de modelos considerando a dificuldade de cada jogo.
Modelos como Claude 4 Opus e Gemini 2.5 Flash destacam-se por bom desempenho relativo e baixo custo.
Modelos pequenos e baratos apresentam desempenho significativamente inferior em resolver aventuras textuais.
A variabilidade de pontuações entre execuções é alta em jogos abertos, dificultando avaliações consistentes.
Aventuras com início mais linear, como Lost Pig e Plundered Hearts, permitem avaliações mais estáveis.
LLMs continuam com desempenho insatisfatório em aventuras textuais e consumo elevado de créditos de API impede testes mais extensos.
Get notified when new stories are published for "Hacker News 🇵🇹 Português"