TREAD ruter tilfældigt valgte tokens fra de tidlige lag til de dybere lag for at forbedre træningseffektivitet.
Metoden er model-agnostisk og kræver ingen arkitektoniske ændringer eller ekstra parametre.
TREAD reducerer både beregningsomkostninger og øger den generative ydeevne på ImageNet-256 benchmark.
Metoden opnår en konvergenshastighedsforbedring på 14x ved 400K iterationer og 37x ved 7M iterationer sammenlignet med DiT.
TREAD leverer konkurrencedygtige FID-scorer på 2,09 i guidet tilstand og 3,93 i uguidet tilstand.
Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"