GPT-5 Chat sering salah menghitung huruf “b” dalam kata blueberry dengan menjawab 3 padahal seharusnya 2.
Uji baseline untuk pertanyaan “berapa r di strawberry” menunjukkan hampir semua LLM menjawab benar kecuali satu model.
Berbagai model LLM diuji—termasuk GPT-5 (Chat, Mini, Nano), GPT-OSS, Claude Opus & Sonnet, Gemini 2.5 Pro & Flash, dan Kimi K2—tanpa prompt engineering tambahan.
Model reasoning seperti Claude Sonnet dan Opus secara konsisten menghitung huruf dengan benar.
Kesalahan GPT-5 Chat tidak disebabkan oleh router yang rusak saat peluncuran, melainkan kegagalan internal model.
Meskipun tokenisasi bisa mempersulit hitung huruf, LLM umumnya telah menunjukkan kemajuan setelah perbaikan RLHF dan data beranotasi.
Semua kode dan dataset pengujian tersedia terbuka di GitHub untuk verifikasi dan penelitian lebih lanjut.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"