Metode evaluasi menggunakan batas giliran dan pencapaian untuk mengukur kemajuan LLM dalam permainan text adventures.
Peringkat model disesuaikan melalui regresi linear untuk memperhitungkan tingkat kesulitan tiap game.
Model Claude 4 Opus, Claude 4 Sonnet, serta Gemini 2.5 Pro dan Flash menunjukkan performa terbaik.
Gemini 2.5 Flash sebagai model murah memiliki performa yang mengesankan dibanding pesaing seharga serupa.
Variasi skor tinggi pada game dengan jalan cerita terbuka, sehingga game berawal linier lebih mudah dievaluasi.
LLM masih belum mahir bermain text adventures dan sering memerlukan banyak giliran untuk mencapai pencapaian.
Evaluasi ini memakan biaya token API yang signifikan dan menuntut pembuatan daftar pencapaian untuk setiap game.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"