TPUはGoogleのASICで行列累乗スループットと省エネルギーを重視して開発
単一チップは2つのTensorCoreと大容量オンチップメモリ(CMEM, VMEM, SMEM)を搭載
コアの中核となるMXUは128×128シストリックアレイで行列演算を効率化
設計哲学はシストリックアレイ+パイプラインとAoTコンパイルによるキャッシュ不要の高速化
XLAコンパイラとのハードウェア共同設計でメモリアクセスを事前最適化し省エネを実現
4チップのトレイ、4×4×4チップのラック、複数ラックのポッドと階層的にスケール可能
OCS(光スイッチ)で非連続ノードやツイステッドトーラスなど柔軟なネットワークトポロジを実現
DCN経由で複数ポッドを接続し、大規模モデル訓練もサポート(例: PaLM訓練)
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"