TREAD: instradamento token per training efficiente

TREAD instrada token selezionati casualmente dagli strati iniziali a quelli profondi del modello per migliorare l’efficienza di training.

Il metodo è agnostico all’architettura e funziona sia con modelli transformer sia con modelli state-space senza modifiche né parametri aggiuntivi.

Su ImageNet-256 condizionato, TREAD riduce i costi computazionali e aumenta le prestazioni generative.

La convergenza è accelerata di 14x rispetto a DiT a 400K iterazioni e di 37x rispetto a DiT a 7M iterazioni.

TREAD raggiunge un FID di 2,09 in modalità guidata e 3,93 in modalità non guidata, superando le prestazioni di DiT.

Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"

No Sign-In needed. One-Click Subscribe.

•

Hacker News 🇮🇹 Italiano•August 18, 2025 at 06:33 PM

TREAD instrada token selezionati casualmente dagli strati iniziali a quelli profondi del modello per migliorare l’efficienza di training.

Il metodo è agnostico all’architettura e funziona sia con modelli transformer sia con modelli state-space senza modifiche né parametri aggiuntivi.

Su ImageNet-256 condizionato, TREAD riduce i costi computazionali e aumenta le prestazioni generative.

La convergenza è accelerata di 14x rispetto a DiT a 400K iterazioni e di 37x rispetto a DiT a 7M iterazioni.

TREAD raggiunge un FID di 2,09 in modalità guidata e 3,93 in modalità non guidata, superando le prestazioni di DiT.

Get notified when new stories are published for "Hacker News 🇮🇹 Italiano"

No Sign-In needed. One-Click Subscribe.