Metin macerası oyunları için LLM’lerin başarısını, belirli metin çıktılarının stratejik şekilde kazanılmasını öngören başarımlar ve sınırlı hamle sayısıyla ölçen bir yöntemle değerlendirme geliştirildi.
Farklı oyunların zorluk düzeyine göre doğrusal regresyon kullanılarak modellerin performans katsayıları ayarlandı.
Claude 4 Opus ve Gemini 2.5 Flash gibi üst seviye ve ucuz modeller, maliyet-performans açısından avantajlı bulundu.
Bazı oyunlarda model çıktıları arasında yüksek oynaklık gözlemlendi; lineer başlangıca sahip oyunlar değerlendirme için daha tutarlı sonuç verdi.
LLM’lerin metin macerası oyunlarında hâlen sınırlı başarı sağladığı ve ipuçlarının sınırlı fayda sunduğu belirlendi.
Get notified when new stories are published for "Hacker News 🇹🇷 Türkçe"