Tiny-TPU: acceleratore toy per inferenza e training

1

Tiny-TPU è un prototipo open source che ricostruisce il funzionamento di un TPU Google per inferenza e training tramite un acceleratore toy basato su array sistolico.

2

Un TPU è un ASIC specializzato in moltiplicazioni matriciali, sfruttando Processing Elements che eseguono operazioni di multiply-accumulate in ogni ciclo di clock.

3

Il design comprende pipeline separate per moltiplicazione matriciale, aggiunta del bias e applicazione di Leaky ReLU, con propagazione di segnali di start per l’efficienza.

4

Il double buffering permette di caricare nuovi pesi durante il calcolo senza fermare l’array, massimizzando l’utilizzo dei PE.

5

Una unified buffer dual-port funge da scratchpad per memorizzare input, pesi, bias e attivazioni, garantendo costante alimentazione dell’array sistolico.

6

Il training è implementato sfruttando lo stesso hardware del forward pass, con VPU (Vector Processing Unit) per il calcolo delle derivate e moltiplicazioni matriciali per i gradienti.

7

Un’ISA custom a 94 bit controlla carico pesi, start, switch, accept e abilitazioni dei moduli, orchestrando pipeline e moduli per inferenza e retropropagazione.

Tiny-TPU: acceleratore toy per inferenza e training

Subscribe to Similar Stories

Tiny-TPU: acceleratore toy per inferenza e training

Subscribe to Similar Stories