Backend CUDA di MLX

1

PR ini menambahkan dukungan backend CUDA ke MLX sehingga contoh tutorial dasar dapat dijalankan di Linux dengan CUDA.

2

Tujuan pengembangan adalah memanfaatkan memori terpadu CUDA dan perangkat NVIDIA untuk kemudahan pengembangan dan deployment ke superkomputer.

3

Profiling pelatihan logistic_regression awal menunjukkan overhead peluncuran kernel dan sinkronisasi event yang cukup tinggi, sekitar 2ms per langkah.

4

Berbagai optimisasi diterapkan, seperti mengganti Event::is_signaled dengan cudaEvent, mengurangi panggilan cudaMemPrefetch, dan menunda penghapusan buffer sementara, sehingga kecepatan meningkat dari 500 it/s ke 2100 it/s.

5

Backend CUDA dipecah menjadi PR kecil untuk setiap jenis operasi (binary ops, matmul, reduce, softmax, indexing, dll.) dan sebagian besar sudah di-merge.

6

PR utama akhirnya ditutup setelah fungsionalitas CUDA diintegrasikan melalui PR-P PR kecil yang incremental.

Backend CUDA di MLX

Subscribe to Similar Stories

Backend CUDA di MLX

Subscribe to Similar Stories