TPU是Google定制的ASIC,以极高的矩阵乘法吞吐量和能效为目标。
单芯片包含两个TensorCore,配有大容量片上内存(CMEM、VMEM、SMEM)和HBM。
采用脉动阵列(systolic array)+流水线设计,能以最少内存读写实现高吞吐。
通过AoT编译与XLA协同,消除传统缓存,提前规划内存访问以提升能效。
脉动阵列对密集矩阵运算友好,但对稀疏矩阵性能提升有限。
多芯片组织包括托盘(4芯片)、机架(4×4×4三维环+OCS)和大规模Pod,支持灵活切片。
OCS优势:缩短最远跳数、可重构非连续切片提升利用率、支持扭曲环拓扑优化通信。
跨Pod使用数据中心网络(DCN)互连,实现超大规模训练,如PaLM项目。
XLA编译器自动插入分层通信操作,简化大规模分布式训练逻辑。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"