Compreendemos bem a matemática e o código que define redes neurais, incluindo a estrutura de matrizes e o algoritmo de descida de gradiente.
Sabemos exatamente quais são os objetivos de treino (por exemplo, previsão de token ou correspondência imagem-legenda) e como formulá-los.
Apesar de dominarmos a criação e o treino, não entendemos em detalhe as estatísticas complexas internas que levam a resultados específicos.
Grande parte do funcionamento final de modelos como LLMs é surpreendente e só pode ser investigada por tentativa e erro ou por interpretação mecanicista limitada.
A interpretabilidade mecanicista permite isolar componentes internos (como “neurónios” que detectam certos conceitos), mas é difícil e cobre apenas uma fração do que ocorre no modelo.
LLMs funcionam essencialmente como autocompletação avançada baseada em estatísticas de linguagem, sem um mecanismo interno facilmente interpretável.
Embora o entendimento completo não seja necessário para usar essa tecnologia, sua falta dificulta pesquisa, validação de comportamentos e desenvolvimento mais seguro.
Get notified when new stories are published for "Hacker News 🇵🇹 Português"