Dybdegående Gennemgang af TPUs

1

TPU’er er Googles specialiserede ASIC’er med ekstrem matrixmultiplikation (matmul) gennemstrømning og høj energieffektivitet

2

En TPUv4-chip har to TensorCores med store hukommelser (CMEM, VMEM, HBM) og beregningsenheder som MXU (systolisk array), VPU og SM

3

Systoliske arrays kombineret med datapipelining muliggør høj throughput uden gentagne hukommelsesadgang

4

Ahead-of-Time-kompilering med XLA og scratchpad-hukommelse erstatter caches og reducerer energiforbrug ved forudsigelige dataflow

5

TPU-systemer skaleres hierarkisk fra chips til trays, racks (4×4×4), pods (64 racks) og multislices via højhastigheds-forbindelser (ICI og OCS)

6

Optical Circuit Switching (OCS) muliggør fleksible topologier, wraparound, ikke-sammenhængende slices og ’twisted’ torus-netværk for bedre kommunikation

7

Valg af slice-topologi (kube, cigar, rektangel) påvirker båndbredde og ydeevne afhængig af data-, tensor- eller pipeline-parallelisering

8

Multipodletræning bruger datacenter-netværk (DCN) til at forbinde pods til store træningsjobs som PaLM

9

XLA compilerens hierarkiske kollektiver koordinerer kommunikation mellem chips og pods for transparent skalerbarhed

10

Store pod-konfigurationer (f.eks. 8960+ chips) når ExaFLOPS-skala mens de holder fokus på energieffektivitet

Dybdegående Gennemgang af TPUs

Subscribe to Similar Stories

Dybdegående Gennemgang af TPUs

Subscribe to Similar Stories