Testes mostraram que GPT-5 Chat frequentemente contabiliza 3 b’s em “blueberry” em vez de 2.
Outras variantes de GPT-5 (Mini, Nano) e modelos open-source (gpt-oss-120b, gpt-oss-20b) obtiveram maior taxa de acerto no mesmo desafio.
Modelos Anthropic (Claude Opus 4.1, Claude Sonnet 4) e Google Gemini 2.5 Pro mostraram contagens corretas com raciocínio caractere a caractere.
No teste de “strawberry”, quase todos os LLMs responderam corretamente ao contar os r’s, sugerindo que já foi alvo de ajustes de treino.
Falhas de GPT-5 Chat não se explicam apenas por tokenização ou problemas de roteamento, já que persistem mesmo sem interferência do router.
Alguns modelos (Gemini 2.5 Flash, gpt-oss-20b) também apresentaram respostas incorretas e inconsistentes, refletindo limitações no entendimento de tokens.
Apesar de melhorias em RLHF e dados anotados, LLMs ainda cometem erros idiossincráticos em tarefas simples de contagem de letras.
Os resultados indicam que, embora LLMs possam contar letras, não o fazem de forma totalmente confiável, motivando mais investigações.
Get notified when new stories are published for "Hacker News 🇵🇹 Português"