TPUs são ASICs focados em alto débito de multiplicações matriciais e eficiência energética, com co-projeto hardware-software usando o compilador XLA.
Cada chip TPUv4 integra dois TensorCores contendo uma MXU (array sistólico 128×128), VPU, VMEM (32 MiB) e SMEM (10 MiB).
O design baseia-se em arrays sistólicos e pipeline para maximizar computação densa e minimizar leituras/escritas de memória.
Evita caches tradicionais: em vez disso, usa memória interna previsível e Ahead-of-Time (AoT) compilation para reduzir custos energéticos.
Escala modularmente: chips formam trays (4 chips), racks (4×4×4 chips) e superpods (64 racks), chegando a ExaFLOPS por pod.
Interconexões de alta largura (ICI) e comutação óptica (OCS) oferecem wraparound, slices não contíguos reconfiguráveis e topologias torus torcidas.
Slices configuráveis (cubo, charuto, retângulo) influenciam largura de banda e desempenho de diferentes métodos de paralelismo.
O XLA gerencia automaticamente colecivas hierárquicas (all-reduce, all-gather) para treino em larga escala, inclusive multi-pod.
Reduzir acessos à memória não só acelera programas mas diminui consumo energético em múltiplas ordens de grandeza.
Get notified when new stories are published for "🇵🇹 Hacker News Português"