Metin Maceraları Oynayan LLM'ler Nasıl Değerlendirilir

Metin macerası oyunları için LLM’lerin başarısını, belirli metin çıktılarının stratejik şekilde kazanılmasını öngören başarımlar ve sınırlı hamle sayısıyla ölçen bir yöntemle değerlendirme geliştirildi.

Farklı oyunların zorluk düzeyine göre doğrusal regresyon kullanılarak modellerin performans katsayıları ayarlandı.

Claude 4 Opus ve Gemini 2.5 Flash gibi üst seviye ve ucuz modeller, maliyet-performans açısından avantajlı bulundu.

Bazı oyunlarda model çıktıları arasında yüksek oynaklık gözlemlendi; lineer başlangıca sahip oyunlar değerlendirme için daha tutarlı sonuç verdi.

LLM’lerin metin macerası oyunlarında hâlen sınırlı başarı sağladığı ve ipuçlarının sınırlı fayda sunduğu belirlendi.

Subscribe to Similar Stories

Get notified when new stories are published for "Hacker News 🇹🇷 Türkçe"

No Sign-In needed. One-Click Subscribe.

•

Hacker News 🇹🇷 Türkçe•August 12, 2025 at 04:22 PM