Arquitetura e Escalabilidade das TPUs

1

TPUs são ASICs focados em alto débito de multiplicações matriciais e eficiência energética, com co-projeto hardware-software usando o compilador XLA.

2

Cada chip TPUv4 integra dois TensorCores contendo uma MXU (array sistólico 128×128), VPU, VMEM (32 MiB) e SMEM (10 MiB).

3

O design baseia-se em arrays sistólicos e pipeline para maximizar computação densa e minimizar leituras/escritas de memória.

4

Evita caches tradicionais: em vez disso, usa memória interna previsível e Ahead-of-Time (AoT) compilation para reduzir custos energéticos.

5

Escala modularmente: chips formam trays (4 chips), racks (4×4×4 chips) e superpods (64 racks), chegando a ExaFLOPS por pod.

6

Interconexões de alta largura (ICI) e comutação óptica (OCS) oferecem wraparound, slices não contíguos reconfiguráveis e topologias torus torcidas.

7

Slices configuráveis (cubo, charuto, retângulo) influenciam largura de banda e desempenho de diferentes métodos de paralelismo.

8

O XLA gerencia automaticamente colecivas hierárquicas (all-reduce, all-gather) para treino em larga escala, inclusive multi-pod.

9

Reduzir acessos à memória não só acelera programas mas diminui consumo energético em múltiplas ordens de grandeza.