Metode Token Routing diusulkan untuk memindahkan token acak dari lapisan awal ke lapisan lebih dalam model.
TREAD bersifat arsitektur-agnostik, tidak memerlukan modifikasi arsitektur maupun parameter tambahan.
Pada benchmark ImageNet-256 bersyarat kelas, TREAD mempercepat konvergensi hingga 14 kali lipat pada 400K iterasi dan 37 kali lipat dibanding DiT pada 7M iterasi.
Model mencapai FID kompetitif sebesar 2,09 pada guided dan 3,93 pada unguided, lebih baik dari DiT.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"