Предложен метод маршрутизации токенов из ранних слоев в глубокие для повышения эффективности обучения моделей диффузии.
Подход не требует изменений архитектуры и дополнительных параметров, применим к трансформерам и моделям на основе пространственных состояний.
TREAD сокращает вычислительные затраты и ускоряет сходимость обучения: 14× быстрее по сравнению с DiT при 400 K итераций и 37× по сравнению с лучшим результатом DiT на 7 M итераций.
Метод обеспечивает конкурентный уровень качества генерации на ImageNet-256: FID 2.09 в управляемом режиме и 3.93 в неуправляемом.
Преимущества TREAD суммируются в одновременном улучшении производительности и снижении затрат на обучение.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"