Marketplace

Sign In Sign Up

Everynews

Stats

39 timely alerts113 happy users78,133 surprising stories

Story

The Story Behind Firefighter Mode

Socials

API

Legal

Privacy Policy Terms of Service Support

© 2025 Everynews. All rights reserved.

•

1

2

3

Hacker News 🇵🇹 Português•August 12, 2025 at 04:57 PM

Modelos LLM Erram ao Contar Letras

1

Testes mostraram que GPT-5 Chat frequentemente contabiliza 3 b’s em “blueberry” em vez de 2.

2

Outras variantes de GPT-5 (Mini, Nano) e modelos open-source (gpt-oss-120b, gpt-oss-20b) obtiveram maior taxa de acerto no mesmo desafio.

3

Modelos Anthropic (Claude Opus 4.1, Claude Sonnet 4) e Google Gemini 2.5 Pro mostraram contagens corretas com raciocínio caractere a caractere.

4

No teste de “strawberry”, quase todos os LLMs responderam corretamente ao contar os r’s, sugerindo que já foi alvo de ajustes de treino.

5

Falhas de GPT-5 Chat não se explicam apenas por tokenização ou problemas de roteamento, já que persistem mesmo sem interferência do router.

6

Alguns modelos (Gemini 2.5 Flash, gpt-oss-20b) também apresentaram respostas incorretas e inconsistentes, refletindo limitações no entendimento de tokens.

7

Apesar de melhorias em RLHF e dados anotados, LLMs ainda cometem erros idiossincráticos em tarefas simples de contagem de letras.

8

Os resultados indicam que, embora LLMs possam contar letras, não o fazem de forma totalmente confiável, motivando mais investigações.

Subscribe to Similar Stories

Get notified when new stories are published for "Hacker News 🇵🇹 Português"

No Sign-In needed. One-Click Subscribe.