Architettura e Scalabilità delle TPU Google

TPU è un ASIC di Google ottimizzato per throughput di moltiplicazioni matriciali ed efficienza energetica

Ogni chip TPUv4 contiene due TensorCore con unità MXU 128×128, VPU e grandi memorie CMEM, VMEM e SMEM

Il design hardware si basa su array sistolici e pipelining per massimizzare il calcolo denso con minimi accessi a memoria

Il compilatore XLA esegue una compilazione Ahead-of-Time per ridurre l’uso di cache e ottimizzare i pattern di accesso

I chip sono organizzati in tray (4 chip), rack (64 chip in topologia 4×4×4), pod (4096 chip) e multi-pod per garantire scalabilità estrema

L’Optical Circuit Switching (OCS) supporta wraparound, configurazioni non contigue di slice e topologie variabili come il twisted torus

TPUv5p e TPUv7 raggiungono decine di exaFLOPS per pod, usati nell’allenamento e inferenza di modelli come Gemini, Veo e PaLM

XLA astrae la complessità delle comunicazioni gerarchiche per parallelismi di dati, tensori e pipeline, semplificando l’uso su larga scala

Get notified when new stories are published for "🇮🇹 Hacker News Italiano"

No Sign-In needed. One-Click Subscribe.