Arquitectura y Escalabilidad de las TPU de Google

1

Las TPU de Google son ASICs diseñados para ofrecer alto rendimiento en multiplicaciones de matrices y gran eficiencia energética.

2

Un chip TPUv4 incluye dos TensorCores con memoria compartida (128 MiB CMEM y 32 GiB HBM) y unidades internas: MXU (array sistólico 128×128), VPU, VMEM (32 MiB) y SMEM (10 MiB).

3

El diseño se basa en arrays sistólicos con pipelining para operar densas multiplicaciones de matrices y convoluciones sin accesos frecuentes a memoria.

4

La compilación Ahead-of-Time con el compilador XLA reduce la dependencia de cachés, usando memoria scratchpad y optimizando patrones de acceso.

5

Las TPU se organizan en trays (4 chips), racks (4×4×4 chips) y pods (hasta 4096 chips), conectados por Inter-Core Interconnect (ICI) y enlaces ópticos reconfigurables (OCS).

6

El OCS permite slices no contiguos, topologías reconfigurables y toros 'twisted', mejorando la flexibilidad y el ancho de banda de comunicación.

7

La arquitectura jerárquica facilita paralelismo de datos, tensores y pipeline, eligiendo la forma de slice según el tipo de modelo.

8

El escalado multi-pod se realiza mediante la red de centro de datos (DCN), como en el entrenamiento de PaLM con miles de TPUv4.

9

El co-diseño hardware-software con XLA abstrae la complejidad de la interconexión, permitiendo entrenar a gran escala con mínimos cambios de código.

Arquitectura y Escalabilidad de las TPU de Google

Subscribe to Similar Stories

Arquitectura y Escalabilidad de las TPU de Google

Subscribe to Similar Stories