TPU созданы для экстремальной пропускной способности при умножении матриц и энергоэффективности
Используют крупные системные массивы (systolic arrays) и конвейеризацию для минимизации операций чтения/записи
Аппаратно-программный код-дизайн с XLA и AOT-компиляцией вместо традиционных кешей
Большие выделенные буферные памяти (CMEM, VMEM, SMEM) заменяют L1/L2-кеши GPU
Масштабируются на уровне треев, шкафов (rack), суперподов (pod) через 3D-торус и оптические коммутаторы (OCS)
Гибкие топологии «срезов» TPU внутри пода и «скрученный торус» ускоряют межчиповой обмен
XLA автоматически организует иерархические коллективные операции для крупномасштабного обучения
Get notified when new stories are published for "🇷🇺 Hacker News Русский"