Architektura TPU: kluczowe zasady

TPU to niestandardowy układ ASIC Google zoptymalizowany pod kątem ekstremalnego przepustowości mnożeń macierzy i efektywności energetycznej.

Pojedynczy chip TPU zawiera dwa TensorCore z jednostkami MXU (128×128), VPU, dużymi pamięciami VMEM, SMEM i wspólną pamięcią CMEM i HBM.

Filozofia projektowa opiera się na sieciach systolicznych z pipeliningiem oraz kompilacji AoT za pomocą XLA, co redukuje potrzebę cache i optymalizuje wzorce dostępu do pamięci.

Sieci systoliczne są bardzo wydajne dla gęstych macierzy, ale tracą na wydajności przy nieregularnej czy rzadkiej reprezentacji.

Hierarchia scalania wielu chipów obejmuje tace (4 chipy), racki (4×4×4 torus 3D), superpody (64 racki) i multislice’y z komunikacją przez DCN.

Optical Circuit Switching (OCS) zapewnia: wraparound zmniejszający liczbę skoków, elastyczne nieciągłe fragmenty w pody oraz możliwość skręconych topologii torusa.

Elastyczne fragmentowanie (slices) i topologie (np. 8×8×8 vs 4×4×32) wpływają na pasmo i wydajność metod równoległości modelu.

Systemy TPU skaluje się do poziomu eksaFLOPS (np. TPUv7 osiąga 42,5 ExaFLOPS/s na pod), a XLA automatyzuje komunikację zbiorczą na dużą skalę.

Subscribe to Similar Stories

Get notified when new stories are published for "🇵🇱 Hacker News Polski"

No Sign-In needed. One-Click Subscribe.