Устройство и масштабирование TPU

1

TPU созданы для экстремальной пропускной способности при умножении матриц и энергоэффективности

2

Используют крупные системные массивы (systolic arrays) и конвейеризацию для минимизации операций чтения/записи

3

Аппаратно-программный код-дизайн с XLA и AOT-компиляцией вместо традиционных кешей

4

Большие выделенные буферные памяти (CMEM, VMEM, SMEM) заменяют L1/L2-кеши GPU

5

Масштабируются на уровне треев, шкафов (rack), суперподов (pod) через 3D-торус и оптические коммутаторы (OCS)

6

Гибкие топологии «срезов» TPU внутри пода и «скрученный торус» ускоряют межчиповой обмен

7

XLA автоматически организует иерархические коллективные операции для крупномасштабного обучения