Авторы проверили способность современных LLM считать вхождения букв, задав вопрос «Сколько букв b в слове "blueberry"».
При тестировании «клубничной» задачи (буква r в «strawberry») большинство моделей ответили безошибочно, за исключением Gemini 2.5 Flash.
В тесте на «blueberry» GPT-5 Chat часто ошибается, называя 3 буквы вместо 2, иногда самопоправляясь, но демонстрирует нестабильность.
Некоторые модели, включая Claude Opus 4.1 и Claude Sonnet 4, а также большинство других LLM, стабильно считают буквы правильно.
Результаты показывают, что, несмотря на улучшения в обучении, LLM порой допускают абсурдные ошибки в простых задачах подсчёта из-за токенизации или других внутренних причин.
Все исходные коды и данные тестов доступны в открытом доступе на GitHub и Hugging Face.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"