PR ini menambahkan dukungan backend CUDA ke MLX sehingga contoh tutorial dasar dapat dijalankan di Linux dengan CUDA.
Tujuan pengembangan adalah memanfaatkan memori terpadu CUDA dan perangkat NVIDIA untuk kemudahan pengembangan dan deployment ke superkomputer.
Profiling pelatihan logistic_regression awal menunjukkan overhead peluncuran kernel dan sinkronisasi event yang cukup tinggi, sekitar 2ms per langkah.
Berbagai optimisasi diterapkan, seperti mengganti Event::is_signaled dengan cudaEvent, mengurangi panggilan cudaMemPrefetch, dan menunda penghapusan buffer sementara, sehingga kecepatan meningkat dari 500 it/s ke 2100 it/s.
Backend CUDA dipecah menjadi PR kecil untuk setiap jenis operasi (binary ops, matmul, reduce, softmax, indexing, dll.) dan sebagian besar sudah di-merge.
PR utama akhirnya ditutup setelah fungsionalitas CUDA diintegrasikan melalui PR-P PR kecil yang incremental.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"