TPU è un ASIC di Google ottimizzato per throughput di moltiplicazioni matriciali ed efficienza energetica
Ogni chip TPUv4 contiene due TensorCore con unità MXU 128×128, VPU e grandi memorie CMEM, VMEM e SMEM
Il design hardware si basa su array sistolici e pipelining per massimizzare il calcolo denso con minimi accessi a memoria
Il compilatore XLA esegue una compilazione Ahead-of-Time per ridurre l’uso di cache e ottimizzare i pattern di accesso
I chip sono organizzati in tray (4 chip), rack (64 chip in topologia 4×4×4), pod (4096 chip) e multi-pod per garantire scalabilità estrema
L’Optical Circuit Switching (OCS) supporta wraparound, configurazioni non contigue di slice e topologie variabili come il twisted torus
TPUv5p e TPUv7 raggiungono decine di exaFLOPS per pod, usati nell’allenamento e inferenza di modelli come Gemini, Veo e PaLM
XLA astrae la complessità delle comunicazioni gerarchiche per parallelismi di dati, tensori e pipeline, semplificando l’uso su larga scala
Get notified when new stories are published for "🇮🇹 Hacker News Italiano"