TREAD, mimari değişiklik olmadan erken katmanlardan rastgele seçilen tokenları derin katmanlara ileterek eğitim verimliliğini artırır.
Yöntem, hem transformer tabanlı modellerde hem de durum-uzay modellerinde uygulanabilir.
Ek parametre veya mimari modifikasyon gerektirmez.
ImageNet-256 sınıf koşullu sentezde DiT’e kıyasla 400K iterasyonda 14 kat daha hızlı yakınsama sağlar.
Rehberli durumda 2.09 FID ve rehbersiz durumda 3.93 FID elde ederek performansı iyileştirir.
Get notified when new stories are published for "Hacker News 🇹🇷 Türkçe"