TPUs sind speziell von Google entwickelte ASICs mit Fokus auf extrem hohe Matrixmultiplikationsdurchsätze und Energieeffizienz.
Eine TPU-Chipeinheit enthält zwei TensorCores mit dedizierten Speichern (CMEM, VMEM, SMEM) und High-Bandwidth-Memory (HBM).
Die Matrix Multiply Unit (MXU) als 128×128 Systolic Array und Vector Unit (VPU) übernehmen die Hauptberechnungen.
Im Gegensatz zu GPUs verzichten TPUs weitgehend auf Caches und setzen auf große lokale Speicher und eine Hardware-Software-Co-Design mit dem XLA-Ahead-of-Time-Compiler.
Systolic Arrays ermöglichen feste Datenflussmuster für MatMul und Convolution, sind jedoch ineffizient bei unregelmäßiger Sparsität.
Die Skalierung erfolgt hierarchisch: von Einzelchips über Trays (4 Chips) zu Racks (64 Chips, 3D-Torus) bis zu Superpods (bis zu 9216 Chips).
Optical Circuit Switching (OCS) in Racks und Pods erlaubt flexible, nicht-kontiguierliche Slice-Konfigurationen und reduzierte Kommunikationslatenzen.
Twisted-Torus-Topologien optimieren All-to-All-Kommunikation in Parallelitätsstrategien wie Tensor- und Datenparallelismus.
Die XLA-Compilerinfrastruktur übernimmt automatische Steuerung sämtlicher Kollektivoperationen über die TPU-Hierarchie, um Entwicklern eine einfache Nutzung großer TPU-Systeme zu ermöglichen.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"