WERSA adalah mekanisme atensi dengan kompleksitas waktu linier O(n) untuk memproses urutan sangat panjang.
Menggunakan transformasi wavelet Haar untuk analisis multi-resolusi, sehingga menangkap detail lokal dan konteks global.
Filter adaptif dihasilkan oleh MLP dengan bobot skala yang dapat dipelajari untuk memprioritaskan komponen frekuensi informatif.
Proyeksi fitur acak digunakan untuk mendekati kernel softmax dan menghindari komputasi matriks atensi kuadratik.
Menyediakan implementasi resmi di Python dengan integrasi Hugging Face Transformers untuk pembangunan model bahasa.
Contoh kode disertakan untuk membangun dan melatih model dengan ~8B dan ~0.6B parameter.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"