TPU架构与设计哲学概览

1

TPU是Google定制的ASIC，以极高的矩阵乘法吞吐量和能效为目标。

2

单芯片包含两个TensorCore，配有大容量片上内存（CMEM、VMEM、SMEM）和HBM。

3

采用脉动阵列（systolic array）＋流水线设计，能以最少内存读写实现高吞吐。

4

通过AoT编译与XLA协同，消除传统缓存，提前规划内存访问以提升能效。

5

脉动阵列对密集矩阵运算友好，但对稀疏矩阵性能提升有限。

6

多芯片组织包括托盘（4芯片）、机架（4×4×4三维环+OCS）和大规模Pod，支持灵活切片。

7

OCS优势：缩短最远跳数、可重构非连续切片提升利用率、支持扭曲环拓扑优化通信。

8

跨Pod使用数据中心网络（DCN）互连，实现超大规模训练，如PaLM项目。

9

XLA编译器自动插入分层通信操作，简化大规模分布式训练逻辑。