Implementasi Flash Attention Cepat di CUDA C++

1

Penulis mengimplementasikan algoritma Flash Attention untuk GPU NVIDIA 5090 menggunakan CUDA C++.

2

Flash Attention ditulis mulai dari versi dasar hingga lima versi optimalisasi dengan teknik berbeda.

3

Versi 1 (dasar) mencapai 68% dari Speed-of-Light (SOL), versi 2 (swizzling memori bersama) naik menjadi 86%.

4

Versi 3 (pipeling dua tahap) mencapai 90% SOL, versi 4 (ldmatrix.x4 untuk K dan V) mencapai 93%, dan versi 5 (pipeling lebih baik) mencapai 94%.

5

Implementasi memanfaatkan instruksi cp.async untuk memindahkan data global→shared, ldmatrix untuk shared→register, dan mma untuk komputasi.

6

Online softmax diimplementasikan secara in-place dengan pembaruan keadaan atensi yang asosiatif.

7

Profiling dengan Nsight Compute mengidentifikasi konflik bank memori bersama yang diatasi dengan swizzling alamat.

8

Pipelining dua tahap digunakan untuk mengoverlap memori dan komputasi menggunakan cp.async.commit_group dan cp.async.wait_group.

9

Teknik ldmatrix.x4 mengurangi jumlah instruksi ldmatrix dan meningkatkan performa.

10

Implementasi akhir mendekati batas teoretis tetapi masih sedikit di bawah performa cuDNN.

11

Usulan pengembangan selanjutnya termasuk backward pass, kuantisasi, penggunaan TMA, dan PagedAttention.