TPU’er er Googles specialiserede ASIC’er med ekstrem matrixmultiplikation (matmul) gennemstrømning og høj energieffektivitet
En TPUv4-chip har to TensorCores med store hukommelser (CMEM, VMEM, HBM) og beregningsenheder som MXU (systolisk array), VPU og SM
Systoliske arrays kombineret med datapipelining muliggør høj throughput uden gentagne hukommelsesadgang
Ahead-of-Time-kompilering med XLA og scratchpad-hukommelse erstatter caches og reducerer energiforbrug ved forudsigelige dataflow
TPU-systemer skaleres hierarkisk fra chips til trays, racks (4×4×4), pods (64 racks) og multislices via højhastigheds-forbindelser (ICI og OCS)
Optical Circuit Switching (OCS) muliggør fleksible topologier, wraparound, ikke-sammenhængende slices og ’twisted’ torus-netværk for bedre kommunikation
Valg af slice-topologi (kube, cigar, rektangel) påvirker båndbredde og ydeevne afhængig af data-, tensor- eller pipeline-parallelisering
Multipodletræning bruger datacenter-netværk (DCN) til at forbinde pods til store træningsjobs som PaLM
XLA compilerens hierarkiske kollektiver koordinerer kommunikation mellem chips og pods for transparent skalerbarhed
Store pod-konfigurationer (f.eks. 8960+ chips) når ExaFLOPS-skala mens de holder fokus på energieffektivitet
Get notified when new stories are published for "🇩🇰 Hacker News Dansk"