Token Routing til Effektiv Diffusionstræning

TREAD ruter tilfældigt valgte tokens fra de tidlige lag til de dybere lag for at forbedre træningseffektivitet.

Metoden er model-agnostisk og kræver ingen arkitektoniske ændringer eller ekstra parametre.

TREAD reducerer både beregningsomkostninger og øger den generative ydeevne på ImageNet-256 benchmark.

Metoden opnår en konvergenshastighedsforbedring på 14x ved 400K iterationer og 37x ved 7M iterationer sammenlignet med DiT.

TREAD leverer konkurrencedygtige FID-scorer på 2,09 i guidet tilstand og 3,93 i uguidet tilstand.

Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"

No Sign-In needed. One-Click Subscribe.

•

Hacker News 🇩🇰 Dansk•August 18, 2025 at 06:33 PM

TREAD ruter tilfældigt valgte tokens fra de tidlige lag til de dybere lag for at forbedre træningseffektivitet.

Metoden er model-agnostisk og kræver ingen arkitektoniske ændringer eller ekstra parametre.

TREAD reducerer både beregningsomkostninger og øger den generative ydeevne på ImageNet-256 benchmark.

Metoden opnår en konvergenshastighedsforbedring på 14x ved 400K iterationer og 37x ved 7M iterationer sammenlignet med DiT.

TREAD leverer konkurrencedygtige FID-scorer på 2,09 i guidet tilstand og 3,93 i uguidet tilstand.

Get notified when new stories are published for "Hacker News 🇩🇰 Dansk"

No Sign-In needed. One-Click Subscribe.