LLM’lerde Blueberry Harf Sayma Hatası

1

GPT-5 Chat modeli “blueberry” kelimesindeki b harflerini sıkça yanlış sayıyor ve çoğunlukla 3 yerine 2 demesi gerekirken 3 diyor.

2

GPT-5 varyantlarının yeni model yönlendiricisi bozuk olsa da hatanın tutarlı şekilde devam ettiği gözlemleniyor.

3

gpt-oss, Claude, Gemini ve Kimi K2 gibi diğer popüler LLM’ler genellikle doğru sonuç verirken bazı varyantlarda farklı sayım hataları yapılıyor.

4

Çilek kelimesindeki r harfleri sayım testinde neredeyse tüm modeller mükemmel performans göstererek eğitim verisindeki düzeltmelere işaret ediyor.

5

Tokenizasyon zorluğu bu hatayı tam açıklamasa da farklı biçimlendirmeler ve çoklu denemelere rağmen LLM’ler tutarsızca başarısız oluyor.

6

Bu çalışma, modern LLM’lerin basit harf sayma gibi temel görevlerde bile idiosynkratik ve tutarsız hatalar yapabileceğini gösteriyor.