TREAD instrada token selezionati casualmente dagli strati iniziali a quelli profondi del modello per migliorare l’efficienza di training.
Il metodo è agnostico all’architettura e funziona sia con modelli transformer sia con modelli state-space senza modifiche né parametri aggiuntivi.
Su ImageNet-256 condizionato, TREAD riduce i costi computazionali e aumenta le prestazioni generative.
La convergenza è accelerata di 14x rispetto a DiT a 400K iterazioni e di 37x rispetto a DiT a 7M iterazioni.
TREAD raggiunge un FID di 2,09 in modalità guidata e 3,93 in modalità non guidata, superando le prestazioni di DiT.
Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"