Могут Ли Современные LLM Считать Буквы?

1

Авторы проверили способность современных LLM считать вхождения букв, задав вопрос «Сколько букв b в слове "blueberry"».

2

При тестировании «клубничной» задачи (буква r в «strawberry») большинство моделей ответили безошибочно, за исключением Gemini 2.5 Flash.

3

В тесте на «blueberry» GPT-5 Chat часто ошибается, называя 3 буквы вместо 2, иногда самопоправляясь, но демонстрирует нестабильность.

4

Некоторые модели, включая Claude Opus 4.1 и Claude Sonnet 4, а также большинство других LLM, стабильно считают буквы правильно.

5

Результаты показывают, что, несмотря на улучшения в обучении, LLM порой допускают абсурдные ошибки в простых задачах подсчёта из-за токенизации или других внутренних причин.

6

Все исходные коды и данные тестов доступны в открытом доступе на GitHub и Hugging Face.

Могут Ли Современные LLM Считать Буквы?

Subscribe to Similar Stories

Могут Ли Современные LLM Считать Буквы?

Subscribe to Similar Stories