TPUの設計とスケーリング概要

1

TPUはGoogleのASICで行列累乗スループットと省エネルギーを重視して開発

2

単一チップは2つのTensorCoreと大容量オンチップメモリ(CMEM, VMEM, SMEM)を搭載

3

コアの中核となるMXUは128×128シストリックアレイで行列演算を効率化

4

設計哲学はシストリックアレイ＋パイプラインとAoTコンパイルによるキャッシュ不要の高速化

5

XLAコンパイラとのハードウェア共同設計でメモリアクセスを事前最適化し省エネを実現

6

4チップのトレイ、4×4×4チップのラック、複数ラックのポッドと階層的にスケール可能

7

OCS(光スイッチ)で非連続ノードやツイステッドトーラスなど柔軟なネットワークトポロジを実現

8

DCN経由で複数ポッドを接続し、大規模モデル訓練もサポート（例: PaLM訓練）