Überblick über TPU-Architektur und Skalierung

1

TPUs sind speziell von Google entwickelte ASICs mit Fokus auf extrem hohe Matrixmultiplikationsdurchsätze und Energieeffizienz.

2

Eine TPU-Chipeinheit enthält zwei TensorCores mit dedizierten Speichern (CMEM, VMEM, SMEM) und High-Bandwidth-Memory (HBM).

3

Die Matrix Multiply Unit (MXU) als 128×128 Systolic Array und Vector Unit (VPU) übernehmen die Hauptberechnungen.

4

Im Gegensatz zu GPUs verzichten TPUs weitgehend auf Caches und setzen auf große lokale Speicher und eine Hardware-Software-Co-Design mit dem XLA-Ahead-of-Time-Compiler.

5

Systolic Arrays ermöglichen feste Datenflussmuster für MatMul und Convolution, sind jedoch ineffizient bei unregelmäßiger Sparsität.

6

Die Skalierung erfolgt hierarchisch: von Einzelchips über Trays (4 Chips) zu Racks (64 Chips, 3D-Torus) bis zu Superpods (bis zu 9216 Chips).

7

Optical Circuit Switching (OCS) in Racks und Pods erlaubt flexible, nicht-kontiguierliche Slice-Konfigurationen und reduzierte Kommunikationslatenzen.

8

Twisted-Torus-Topologien optimieren All-to-All-Kommunikation in Parallelitätsstrategien wie Tensor- und Datenparallelismus.

9

Die XLA-Compilerinfrastruktur übernimmt automatische Steuerung sämtlicher Kollektivoperationen über die TPU-Hierarchie, um Entwicklern eine einfache Nutzung großer TPU-Systeme zu ermöglichen.

Überblick über TPU-Architektur und Skalierung

Subscribe to Similar Stories

Überblick über TPU-Architektur und Skalierung

Subscribe to Similar Stories