Las TPU de Google son ASICs diseñados para ofrecer alto rendimiento en multiplicaciones de matrices y gran eficiencia energética.
Un chip TPUv4 incluye dos TensorCores con memoria compartida (128 MiB CMEM y 32 GiB HBM) y unidades internas: MXU (array sistólico 128×128), VPU, VMEM (32 MiB) y SMEM (10 MiB).
El diseño se basa en arrays sistólicos con pipelining para operar densas multiplicaciones de matrices y convoluciones sin accesos frecuentes a memoria.
La compilación Ahead-of-Time con el compilador XLA reduce la dependencia de cachés, usando memoria scratchpad y optimizando patrones de acceso.
Las TPU se organizan en trays (4 chips), racks (4×4×4 chips) y pods (hasta 4096 chips), conectados por Inter-Core Interconnect (ICI) y enlaces ópticos reconfigurables (OCS).
El OCS permite slices no contiguos, topologías reconfigurables y toros 'twisted', mejorando la flexibilidad y el ancho de banda de comunicación.
La arquitectura jerárquica facilita paralelismo de datos, tensores y pipeline, eligiendo la forma de slice según el tipo de modelo.
El escalado multi-pod se realiza mediante la red de centro de datos (DCN), como en el entrenamiento de PaLM con miles de TPUv4.
El co-diseño hardware-software con XLA abstrae la complejidad de la interconexión, permitiendo entrenar a gran escala con mínimos cambios de código.
Get notified when new stories are published for "🇪🇸 Hacker News Espanyol"